网页qq抓取什么原理(传统爬虫从一个或几个初始网页上的URL开始聚焦爬虫)

优采云发布时间: 2021-12-31 18:12

　　传统爬虫从一个或几个初始网页的网址开始，获取初始网页上的网址，在抓取网页的过程中，不断从当前网页中提取新的网址并放入队列中，直到满足系统一定的停止条件。聚焦爬虫的工作流程更为复杂。不相关的链接需要按照一定的网页分析算法过滤掉，有用的链接保留下来，放到URL队列中等待抓取。

　　然后，它会根据一定的搜索策略从队列中选择下一页的URL，重复上述过程，直到达到系统的某个条件。此外，爬虫抓取到的所有网页都会被系统存储起来，进行一定程度的分析和过滤，并编入索引，供后续查询和检索使用。因此，一个完整的爬虫一般包括以下三个模块：

　　一、网络请求模块

　　二、爬行过程控制模块

　　三.内容分析提取模块

　　网络请求

　　我们常说一个爬虫其实就是一堆http(s)请求，找到要爬取的链接，然后发送请求包得到返回包。当然，h5中也有基于流的HTTP keep-alive或者websocket协议。

　　过程控制

　　所谓的爬取过程就是按照什么样的规则顺序进行爬取。当爬取任务比较小时，爬取过程控制不会太麻烦。很多爬虫框架已经为你做了一些事情，比如scrapy，你只需要自己实现解析代码即可。

　　内容分析和提取

　　请求头的 Accept-Encoding 字段表示浏览器告诉服务器它支持哪种压缩算法（gzip 目前是最流行的）。如果服务端开启压缩，响应体返回时会被压缩，需要爬虫自行解压。

0

2021-12-31

网页qq抓取什么原理

0 个评论

要回复文章请先登录或注册