网页qq抓取什么原理(传统爬虫从一个或几个初始网页上的URL开始聚焦爬虫)

优采云 发布时间: 2021-12-31 18:12

  网页qq抓取什么原理(传统爬虫从一个或几个初始网页上的URL开始聚焦爬虫)

  传统爬虫从一个或几个初始网页的网址开始,获取初始网页上的网址,在抓取网页的过程中,不断从当前网页中提取新的网址并放入队列中,直到满足系统一定的停止条件。聚焦爬虫的工作流程更为复杂。不相关的链接需要按照一定的网页分析算法过滤掉,有用的链接保留下来,放到URL队列中等待抓取。

  

  然后,它会根据一定的搜索策略从队列中选择下一页的URL,重复上述过程,直到达到系统的某个条件。此外,爬虫抓取到的所有网页都会被系统存储起来,进行一定程度的分析和过滤,并编入索引,供后续查询和检索使用。因此,一个完整的爬虫一般包括以下三个模块:

  一、网络请求模块

  二、爬行过程控制模块

  三.内容分析提取模块

  网络请求

  我们常说一个爬虫其实就是一堆http(s)请求,找到要爬取的链接,然后发送请求包得到返回包。当然,h5中也有基于流的HTTP keep-alive或者websocket协议。

  过程控制

  所谓的爬取过程就是按照什么样的规则顺序进行爬取。当爬取任务比较小时,爬取过程控制不会太麻烦。很多爬虫框架已经为你做了一些事情,比如scrapy,你只需要自己实现解析代码即可。

  内容分析和提取

  请求头的 Accept-Encoding 字段表示浏览器告诉服务器它支持哪种压缩算法(gzip 目前是最流行的)。如果服务端开启压缩,响应体返回时会被压缩,需要爬虫自行解压。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线