js 爬虫抓取网页数据(编辑本段影响爬行速度的一个重要因素是DNS的重要组成部分)

优采云发布时间: 2022-02-02 20:13

　　编辑本段基本介绍

　　网络爬虫，也称为蜘蛛。网络爬虫是一种自动提取网页的程序，是搜索引擎的重要组成部分。作为爬虫，它是将网页尽可能多、尽可能快地交付给搜索引擎，以实现强大的数据支持。

　　网络爬虫通过其链接地址搜索网页，从网站的一个页面（通常是首页）开始，读取网页内容，找到网页中的其他链接地址，然后使用这些链接地址以查找下一页。一个网页，以此类推，直到这个网站的所有网页都被爬取完毕。

　　如果把整个互联网看成一个网站，那么网络爬虫就可以利用这个原理爬取整个互联网上的所有网页。

　　编辑本段爬虫系统

　　为了获取数亿网页，谷歌设计了分布式爬虫系统。URL 服务器向网络爬虫提供 URL 列表。每个爬虫同时维护大约 300 个网络连接。以最快的速度，使用 4 个爬虫，系统每秒可以获取超过 100 个网页。

　　编辑本段影响爬取速度的原因

　　影响爬取速度的一个重要因素是 DNS 查询，每个爬虫都维护自己的 DNS 缓冲区。这样每个连接都处于不同的状态，包括 DNS 查询、连接到主机、发送请求和获取响应。这些因素结合起来使爬虫成为一个非常复杂的系统。它通过异步输入/输出来管理事件，并通过一定数量的队列来管理获取网页过程中的状态转换。

0

2022-02-02

js 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册