网页抓取数据百度百科( 网络爬虫（又被称为网页蜘蛛，网络机器人，）)

优采云发布时间: 2022-03-18 02:08

　　网页抓取数据百度百科(

网络爬虫（又被称为网页蜘蛛，网络机器人，）)

　　网络爬虫（也称为网络蜘蛛或网络机器人）是一种程序或脚本，它根据一定的规则自动爬取万维网上的信息。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

　　网络爬虫是一种自动提取网页的程序。它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。传统爬虫从一个或多个初始网页的URL开始，获取初始网页上的URL。在对网页进行爬取的过程中，不断地从当前页面中提取新的URL并放入队列中，直到满足系统的某些停止条件。焦点爬虫的工作流程比较复杂。它需要按照一定的网页分析算法过滤掉与主题无关的链接，保留有用的链接，并放入等待抓取的URL队列中。然后，它会根据一定的搜索策略从队列中选择下一个要爬取的网页URL，

　　特点：高性能、可扩展性、健壮性、友好性。

　　技术：路径检索、聚焦抓取、反向链接计数、广度优先遍历。

　　词汇表

　　聚焦抓取：聚焦检索的主要问题是使用网络爬虫的上下文。我们想在实际下载页面之前知道给定页面和查询之间的相似性。

　　反向链接数：反向链接数是指指向其他网页指向的网页的链接数。反向链接的数量表示网页内容被他人推荐的程度。因此，在很多情况下，搜索引擎的爬取系统会使用这个指标来评估网页的重要性，从而确定不同网页的爬取顺序。

　　批量爬虫：批量爬虫的爬取范围和目标比较明确。当爬虫到达这个设定的目标时，它会停止爬取过程。至于具体的目标，可能不一样，可能是设置爬取一定数量的网页，也可能是设置爬取时间等等，都不一样。

　　增量爬虫：与批量爬虫不同，增量爬虫会不断地爬取。抓取到的网页要定期更新，因为互联网网页在不断变化，新网页、网页被删除或网页内容的变化是常见的，增量爬虫需要及时反映这种变化，所以在不断的爬取过程中，他们要么抓取新网页，要么更新现有网页。常见的商业搜索引擎爬虫基本属于这一类。

　　反爬虫：防止他人利用任何技术手段批量获取自己的网站信息的一种方式。关键也是批量大小。

　　阻止：成功阻止爬虫访问。这里会有拦截率的概念。一般来说，反爬虫策略的拦截率越高，误伤的可能性就越高。所以需要做出权衡。

0

2022-03-18

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据百度百科( 网络爬虫（又被称为网页蜘蛛，网络机器人，）)

0 个评论

发起人