爬虫抓取网页数据(scrapy框架里自带标签选择器HtmlXPathSelector具体的使用规则可以查阅)

优采云 发布时间: 2021-11-12 18:20

  爬虫抓取网页数据(scrapy框架里自带标签选择器HtmlXPathSelector具体的使用规则可以查阅)

  上卷我们抓取了网页的所有内容,现在抓取网页的图片名称和连接

  现在我创建一个新的爬虫文件并将名称设置为 crawler2

  爬虫的朋友应该知道,网页中的数据是用文本或者块级标签包裹的。scrapy 框架带有一个标签选择器 HtmlXPathSelector。具体的使用规则大家可以查看,我就不介绍了。

  现在我们要爬取的内容就是网页的图片标题和网页的图片链接,所以需要在网站的浏览器控制台查看label内容属性

  在控制台我们发现:

  我们要抓取的内容在类名showlist的div下的li标签下

  所以我们先获取下一页的指定LI标签

  

  先看打印结果:

  

  内容在哪里,别慌,这个选择器打印出来的结果是没有问题的

  下面我们修改一下代码,获取LI中的内容,实现父亲找孩子的过程

  

  我一般用这个extract()函数来获取标签

  看看结果

  

  一组LI里面的内容很多,一一对应起来也不方便。可以看出,网站的前端直接就是一个块级元素,将多张图片封装在一个LI中。

  如果您不舒服,请修改代码。一个 LI 中有七个。为了确保数据的准确性,我为每个父 LI 元素设置了一个数字。

  看代码

  

  看看结果:

  

  即使文字不健康,数据依然清晰可见

  现在图片连接好了,我们就可以根据链接下载图片了。然后我们使用urlretrieve函数,在当前爬虫文件夹中创建一个与SPIDER文件同级的IMG文件夹

  看一下代码:

  

  其实就像公式一样,读取公式+存储公式就完成了图片的下载:我们现在来看看结果:

  

  真是不择手段网站我不会再爬了

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线