网页qq抓取什么原理(传统爬虫从一个或几个初始网页上的URL开始聚焦爬虫)
优采云 发布时间: 2021-12-31 18:12网页qq抓取什么原理(传统爬虫从一个或几个初始网页上的URL开始聚焦爬虫)
传统爬虫从一个或几个初始网页的网址开始,获取初始网页上的网址,在抓取网页的过程中,不断从当前网页中提取新的网址并放入队列中,直到满足系统一定的停止条件。聚焦爬虫的工作流程更为复杂。不相关的链接需要按照一定的网页分析算法过滤掉,有用的链接保留下来,放到URL队列中等待抓取。
然后,它会根据一定的搜索策略从队列中选择下一页的URL,重复上述过程,直到达到系统的某个条件。此外,爬虫抓取到的所有网页都会被系统存储起来,进行一定程度的分析和过滤,并编入索引,供后续查询和检索使用。因此,一个完整的爬虫一般包括以下三个模块:
一、网络请求模块
二、爬行过程控制模块
三.内容分析提取模块
网络请求
我们常说一个爬虫其实就是一堆http(s)请求,找到要爬取的链接,然后发送请求包得到返回包。当然,h5中也有基于流的HTTP keep-alive或者websocket协议。
过程控制
所谓的爬取过程就是按照什么样的规则顺序进行爬取。当爬取任务比较小时,爬取过程控制不会太麻烦。很多爬虫框架已经为你做了一些事情,比如scrapy,你只需要自己实现解析代码即可。
内容分析和提取
请求头的 Accept-Encoding 字段表示浏览器告诉服务器它支持哪种压缩算法(gzip 目前是最流行的)。如果服务端开启压缩,响应体返回时会被压缩,需要爬虫自行解压。