爬虫抓取网页数据(如何发送网络请求爬虫的关键了?(组图))

优采云 发布时间: 2022-03-20 18:16

  爬虫抓取网页数据(如何发送网络请求爬虫的关键了?(组图))

  什么是爬行动物

  爬虫是指利用代码模拟用户批量发送网络请求,批量获取数据的行为。

  网络请求

  如果说爬虫是指使用代码模拟用户批量发送网络请求,那么如何发送网络请求是爬虫的关键,那么如何发送网络请求呢?

  “打开浏览器→在搜索框/输入框输入要查询的内容→点击回车”的过程是对用户的一次完整的网络请求。

  

  网络请求

  数据

  我们发送网络请求后,我们的电脑上会出现一些数据,例如:如果我们搜索“什么是python”,电脑的浏览器会显示一些网页和链接,显示的信息就是这台电脑和其他的计算机或服务器已连接,它响应计算机网络请求的数据。

  

  数据

  超文本传输​​协议

  响应网络请求会产生大量的数据(我们搜索关键词会出几百万条结果),所以这个数据有一个管理集叫做“超文本传输​​协议”,这也是我们经常在网站的前缀为“http”。

  

  超文本传输​​协议

  而http有5种请求方式,分别是:get、post、put、delete、head,其中最常用的是get请求和post请求。

  爬行动物的分类

  上面讲了“发送网络请求”的相关知识,接下来说说“批量获取数据”的相关内容。

  发送什么样的请求,会得到什么样的数据,爬虫发送请求的方式主要有两种:“通用爬虫”和“聚焦爬虫”。

  万能爬虫:可以爬取关键词页面上的所有内容,开放性更好,速度更快,但是90%的爬取内容是用户不需要的,就像你在搜索引擎上输入你要的内容想要,但他会出现“广告”、“相关链接”、“热门内容”等,而这些都不是你想要的内容。

  

  万能爬虫

  专注于爬虫:可以清晰的爬取用户想要的内容,目标非常精准。也是现在爬虫的主流。

  此外,“增量爬虫”具有翻页功能,可以爬取所有页面的内容。“深度爬虫”可以爬取html和css的静态数据,以及js的动态数据。这两者都属于“焦点爬虫”。

  爬虫可以爬什么

  了解了一些爬虫的基础知识之后,我们再来说说可以爬取哪些内容。

  “仅抓取用户有权访问的数据”

  例如:如果你要爬取视频网站的视频,你是普通用户,所以你可以爬取普通视频。如果要爬VIP视频,需要给VIP充值。

  并且不允许将爬出的信息进行出售等行为。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线