爬虫抓取网页数据(如何发送网络请求爬虫的关键了？(组图))

优采云发布时间: 2022-03-20 18:16

　　什么是爬行动物

　　爬虫是指利用代码模拟用户批量发送网络请求，批量获取数据的行为。

　　网络请求

　　如果说爬虫是指使用代码模拟用户批量发送网络请求，那么如何发送网络请求是爬虫的关键，那么如何发送网络请求呢？

　　“打开浏览器→在搜索框/输入框输入要查询的内容→点击回车”的过程是对用户的一次完整的网络请求。

　　网络请求

　　数据

　　我们发送网络请求后，我们的电脑上会出现一些数据，例如：如果我们搜索“什么是python”，电脑的浏览器会显示一些网页和链接，显示的信息就是这台电脑和其他的计算机或服务器已连接，它响应计算机网络请求的数据。

　　数据

　　超文本传输协议

　　响应网络请求会产生大量的数据（我们搜索关键词会出几百万条结果），所以这个数据有一个管理集叫做“超文本传输协议”，这也是我们经常在网站的前缀为“http”。

　　超文本传输协议

　　而http有5种请求方式，分别是：get、post、put、delete、head，其中最常用的是get请求和post请求。

　　爬行动物的分类

　　上面讲了“发送网络请求”的相关知识，接下来说说“批量获取数据”的相关内容。

　　发送什么样的请求，会得到什么样的数据，爬虫发送请求的方式主要有两种：“通用爬虫”和“聚焦爬虫”。

　　万能爬虫：可以爬取关键词页面上的所有内容，开放性更好，速度更快，但是90%的爬取内容是用户不需要的，就像你在搜索引擎上输入你要的内容想要，但他会出现“广告”、“相关链接”、“热门内容”等，而这些都不是你想要的内容。

　　万能爬虫

　　专注于爬虫：可以清晰的爬取用户想要的内容，目标非常精准。也是现在爬虫的主流。

　　此外，“增量爬虫”具有翻页功能，可以爬取所有页面的内容。“深度爬虫”可以爬取html和css的静态数据，以及js的动态数据。这两者都属于“焦点爬虫”。

　　爬虫可以爬什么

　　了解了一些爬虫的基础知识之后，我们再来说说可以爬取哪些内容。

　　“仅抓取用户有权访问的数据”

　　例如：如果你要爬取视频网站的视频，你是普通用户，所以你可以爬取普通视频。如果要爬VIP视频，需要给VIP充值。

　　并且不允许将爬出的信息进行出售等行为。

0

2022-03-20

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册