网页抓取数据百度百科( 网络爬虫(又被称为网页蜘蛛,网络机器人,))

优采云 发布时间: 2022-03-18 02:08

  网页抓取数据百度百科(

网络爬虫(又被称为网页蜘蛛,网络机器人,))

  

  网络爬虫(也称为网络蜘蛛或网络机器人)是一种程序或脚本,它根据一定的规则自动爬取万维网上的信息。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

  

  网络爬虫是一种自动提取网页的程序。它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。传统爬虫从一个或多个初始网页的URL开始,获取初始网页上的URL。在对网页进行爬取的过程中,不断地从当前页面中提取新的URL并放入队列中,直到满足系统的某些停止条件。焦点爬虫的工作流程比较复杂。它需要按照一定的网页分析算法过滤掉与主题无关的链接,保留有用的链接,并放入等待抓取的URL队列中。然后,它会根据一定的搜索策略从队列中选择下一个要爬取的网页URL,

  

  特点:高性能、可扩展性、健壮性、友好性。

  技术:路径检索、聚焦抓取、反向链接计数、广度优先遍历。

  词汇表

  聚焦抓取:聚焦检索的主要问题是使用网络爬虫的上下文。我们想在实际下载页面之前知道给定页面和查询之间的相似性。

  

  反向链接数:反向链接数是指指向其他网页指向的网页的链接数。反向链接的数量表示网页内容被他人推荐的程度。因此,在很多情况下,搜索引擎的爬取系统会使用这个指标来评估网页的重要性,从而确定不同网页的爬取顺序。

  批量爬虫:批量爬虫的爬取范围和目标比较明确。当爬虫到达这个设定的目标时,它会停止爬取过程。至于具体的目标,可能不一样,可能是设置爬取一定数量的网页,也可能是设置爬取时间等等,都不一样。

  

  增量爬虫:与批量爬虫不同,增量爬虫会不断地爬取。抓取到的网页要定期更新,因为互联网网页在不断变化,新网页、网页被删除或网页内容的变化是常见的,增量爬虫需要及时反映这种变化,所以在不断的爬取过程中,他们要么抓取新网页,要么更新现有网页。常见的商业搜索引擎爬虫基本属于这一类。

  反爬虫:防止他人利用任何技术手段批量获取自己的网站信息的一种方式。关键也是批量大小。

  阻止:成功阻止爬虫访问。这里会有拦截率的概念。一般来说,反爬虫策略的拦截率越高,误伤的可能性就越高。所以需要做出权衡。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线