网页爬虫抓取百度图片(什么是爬虫?爬虫就是使用任何技术手段,批量获取网站信息的一种方式)
优采云 发布时间: 2022-01-08 00:13网页爬虫抓取百度图片(什么是爬虫?爬虫就是使用任何技术手段,批量获取网站信息的一种方式)
什么是爬虫?爬虫是一种利用任何技术手段批量获取网站信息的方式。关键在于批量。说白了就是模拟真实用户请求大量数据。下面将介绍爬取的方式和实际应用场景。
内容:
1、爬取方式
2、爬虫的应用场景
3、反爬虫策略
一、爬取方式
从网页的交互维度来看,爬虫主要分为两种方式:常规爬虫和自动爬虫。
1、常规爬虫
常规爬虫也叫裸码爬虫,是最原创的爬虫方式。
比如要爬取微博的热搜榜,需要经过3个步骤:
1),确定目标地址分析页面请求格式,在微博上找到实时热搜的网址:/top/summary?cate=realtimehot
2)。目标信息解析请求到达特定页面后,需要解析页面中的数据,爬取的页面其实就是一堆前端代码。使用dom api读取代码中的数据,比如想要获取每个热搜的名称,那么就需要获取网页dom结构中的热搜名称的路径。
3),数据存储
目标信息解析后,可以存入数据库或写入文件以备后用。
总结:可见,常规爬虫必须提前知道每个需要爬取的页面的具体地址,并且只能爬一个一个网页,而不是整个站点;每个页面都要写对应的代码来模拟Request,比较麻烦。
随着时代的发展,出现了自动化爬虫框架。往下看~
2、自动爬虫
自动化爬虫框架有好几种,下面介绍比较经典的puppeteer框架。
Puppeteer 是来自 Google Chrome 的无头 Chrome 工具。它提供了一个高级 api 来控制无头(无接口)chrome。
Puppeteer 可以模拟大部分用户操作,包括大部分的点击、滚动、悬停、聚焦等交互,所以只要知道网站的主页地址,就可以调用api进行模拟爬取整个网站的数据的用户操作。
比如要抓取百度中python的搜索数据,只需要调用api模拟键盘输入“python”=>回车=>点击搜索项=>解析抓取到的内容。
接下来我们来看看木偶爬虫的更多应用场景。
二、爬虫应用场景
前面提到了puppeteer自动化爬虫框架,很多应用场景也是基于puppeteer诞生的。
1、获取网络数据
基于爬虫数据诞生的产品,如比价购物、各种热搜排名、舆情追踪、新闻追踪、盗版vip视频网站等。
2、UI自动化测试
因为puppeteer提供了很多模拟用户操作的api,所以现在很多公司都在做一些基于puppeteer的自动化测试。比如要测试一个前端页面的兼容性,以及前端页面UI是否有bug,只需要模拟表单提交和键盘输入等页面操作的执行。
3、生成页面截图和PDF
puppeteer 还提供用于截图和 pdf 生成的 api。
4、监控网络数据
通过爬取前端数据,可以监控网站数据是否异常(如数据丢弃0)。如果数据异常,可以向数据人员报警。
5、监控网页性能
它可以捕捉网站的时间线轨迹,帮助诊断性能问题。
三、反爬虫策略
如果有爬虫,就可能有反爬虫。有些网站 数据比较敏感,不希望您获取。此时,公司将采取各种反爬虫措施。
1、屏蔽ip
这是一种比较简单粗暴的方式。查询单位时间内请求过多的账号,查看该账号的电脑ip后直接屏蔽这台电脑的访问,但误伤率也比较高,慎用。
2、用图片替换敏感信息
电商平台的商品价格信息相对敏感。有的平台会用图片代替显示价格型号信息。这确实可以防止爬虫,但是随着机器学习的发展,现在识别图片的技术越来越强大。慢慢的,这种治疗方法的效果就没有那么好了。
3、你在网上看到的不是你得到的
通过一定的算法规则,将虚假信息与真实信息进行映射。虚假信息存储在网页代码中,但在显示时,真实信息通过算法规则和ttf字体文件进行映射。
4、手动输入动态代码。一些网站为了避免被爬取,在访问页面之前,比如输入一个动态验证码,对身份验证有效,有有效期。
5、法律途径
爬行动物违法吗?目前的爬虫在法律层面上还是有点边缘球的。对爬虫的官司还是有的,合法渠道也算是数据保护的一种方式。