网页爬虫抓取百度图片(什么是爬虫？爬虫就是使用任何技术手段，批量获取网站信息的一种方式)

优采云发布时间: 2022-01-08 00:13

　　什么是爬虫？爬虫是一种利用任何技术手段批量获取网站信息的方式。关键在于批量。说白了就是模拟真实用户请求大量数据。下面将介绍爬取的方式和实际应用场景。

　　内容：

　　1、爬取方式

　　2、爬虫的应用场景

　　3、反爬虫策略

　　一、爬取方式

　　从网页的交互维度来看，爬虫主要分为两种方式：常规爬虫和自动爬虫。

　　1、常规爬虫

　　常规爬虫也叫裸码爬虫，是最原创的爬虫方式。

　　比如要爬取微博的热搜榜，需要经过3个步骤：

　　1），确定目标地址分析页面请求格式，在微博上找到实时热搜的网址：/top/summary?cate=realtimehot

　　2）。目标信息解析请求到达特定页面后，需要解析页面中的数据，爬取的页面其实就是一堆前端代码。使用dom api读取代码中的数据，比如想要获取每个热搜的名称，那么就需要获取网页dom结构中的热搜名称的路径。

　　3），数据存储

　　目标信息解析后，可以存入数据库或写入文件以备后用。

　　总结：可见，常规爬虫必须提前知道每个需要爬取的页面的具体地址，并且只能爬一个一个网页，而不是整个站点；每个页面都要写对应的代码来模拟Request，比较麻烦。

　　随着时代的发展，出现了自动化爬虫框架。往下看~

　　2、自动爬虫

　　自动化爬虫框架有好几种，下面介绍比较经典的puppeteer框架。

　　Puppeteer 是来自 Google Chrome 的无头 Chrome 工具。它提供了一个高级 api 来控制无头（无接口）chrome。

　　Puppeteer 可以模拟大部分用户操作，包括大部分的点击、滚动、悬停、聚焦等交互，所以只要知道网站的主页地址，就可以调用api进行模拟爬取整个网站的数据的用户操作。

　　比如要抓取百度中python的搜索数据，只需要调用api模拟键盘输入“python”=>回车=>点击搜索项=>解析抓取到的内容。

　　接下来我们来看看木偶爬虫的更多应用场景。

　　二、爬虫应用场景

　　前面提到了puppeteer自动化爬虫框架，很多应用场景也是基于puppeteer诞生的。

　　1、获取网络数据

　　基于爬虫数据诞生的产品，如比价购物、各种热搜排名、舆情追踪、新闻追踪、盗版vip视频网站等。

　　2、UI自动化测试

　　因为puppeteer提供了很多模拟用户操作的api，所以现在很多公司都在做一些基于puppeteer的自动化测试。比如要测试一个前端页面的兼容性，以及前端页面UI是否有bug，只需要模拟表单提交和键盘输入等页面操作的执行。

　　3、生成页面截图和PDF

　　puppeteer 还提供用于截图和 pdf 生成的 api。

　　4、监控网络数据

　　通过爬取前端数据，可以监控网站数据是否异常（如数据丢弃0）。如果数据异常，可以向数据人员报警。

　　5、监控网页性能

　　它可以捕捉网站的时间线轨迹，帮助诊断性能问题。

　　三、反爬虫策略

　　如果有爬虫，就可能有反爬虫。有些网站数据比较敏感，不希望您获取。此时，公司将采取各种反爬虫措施。

　　1、屏蔽ip

　　这是一种比较简单粗暴的方式。查询单位时间内请求过多的账号，查看该账号的电脑ip后直接屏蔽这台电脑的访问，但误伤率也比较高，慎用。

　　2、用图片替换敏感信息

　　电商平台的商品价格信息相对敏感。有的平台会用图片代替显示价格型号信息。这确实可以防止爬虫，但是随着机器学习的发展，现在识别图片的技术越来越强大。慢慢的，这种治疗方法的效果就没有那么好了。

　　3、你在网上看到的不是你得到的

　　通过一定的算法规则，将虚假信息与真实信息进行映射。虚假信息存储在网页代码中，但在显示时，真实信息通过算法规则和ttf字体文件进行映射。

　　4、手动输入动态代码。一些网站为了避免被爬取，在访问页面之前，比如输入一个动态验证码，对身份验证有效，有有效期。

　　5、法律途径

　　爬行动物违法吗？目前的爬虫在法律层面上还是有点边缘球的。对爬虫的官司还是有的，合法渠道也算是数据保护的一种方式。

0

2022-01-08

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(什么是爬虫？爬虫就是使用任何技术手段，批量获取网站信息的一种方式)

0 个评论

发起人

AI时代内容工厂

网页爬虫抓取百度图片(什么是爬虫？爬虫就是使用任何技术手段，批量获取网站信息的一种方式)

0 个评论

发起人

相关问题