爬虫抓取网页数据(scrapy框架里自带标签选择器HtmlXPathSelector具体的使用规则可以查阅)

优采云发布时间: 2021-11-12 18:20

　　上卷我们抓取了网页的所有内容，现在抓取网页的图片名称和连接

　　现在我创建一个新的爬虫文件并将名称设置为 crawler2

　　爬虫的朋友应该知道，网页中的数据是用文本或者块级标签包裹的。scrapy 框架带有一个标签选择器 HtmlXPathSelector。具体的使用规则大家可以查看，我就不介绍了。

　　现在我们要爬取的内容就是网页的图片标题和网页的图片链接，所以需要在网站的浏览器控制台查看label内容属性

　　在控制台我们发现：

　　我们要抓取的内容在类名showlist的div下的li标签下

　　所以我们先获取下一页的指定LI标签

　　先看打印结果：

　　内容在哪里，别慌，这个选择器打印出来的结果是没有问题的

　　下面我们修改一下代码，获取LI中的内容，实现父亲找孩子的过程

　　我一般用这个extract()函数来获取标签

　　看看结果

　　一组LI里面的内容很多，一一对应起来也不方便。可以看出，网站的前端直接就是一个块级元素，将多张图片封装在一个LI中。

　　如果您不舒服，请修改代码。一个 LI 中有七个。为了确保数据的准确性，我为每个父 LI 元素设置了一个数字。

　　看代码

　　看看结果：

　　即使文字不健康，数据依然清晰可见

　　现在图片连接好了，我们就可以根据链接下载图片了。然后我们使用urlretrieve函数，在当前爬虫文件夹中创建一个与SPIDER文件同级的IMG文件夹

　　看一下代码：

　　其实就像公式一样，读取公式+存储公式就完成了图片的下载：我们现在来看看结果：

　　真是不择手段网站我不会再爬了

0

2021-11-12

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册