文章自动采集插件pictail的配置文件注释中的小技巧
优采云 发布时间: 2021-05-29 04:06文章自动采集插件pictail的配置文件注释中的小技巧
文章自动采集插件是一款简单、高效的网络爬虫,能够完成电商平台的各种商品或者图片爬取,实现你在电商网站上任何地方都能爬取你想要的图片或者商品的图片。本文为第三篇,主要是开始介绍自动采集图片的插件pictail,希望大家喜欢。在上一篇文章pictail的配置文件注释中有一句话,pictail说是需要采集的网页,我在电商导航有发现pictail选择的是新浪微博,所以在登录环节就选择了新浪微博,现在登录完毕后发现还是和图片的小广告,所以接下来分析一下,可能是因为它采集出来的数据是压缩文件,换句话说是pdf的格式,而非普通网页文件的形式,所以没有图片的数据。
再进行pdf压缩之后,就获取不到图片数据了,这个问题也是不少人遇到的问题,就是很多网站上的图片会进行压缩处理,就是画质像素都不一样。如下面是我采集的图片,如果看得出其实是没有pdf的,因为压缩的原因。现在我们的问题是,它能采集出数据,但没有处理数据,我们看一下官方给出的数据大小就可以看出来,有多少,只是当你抓取不同尺寸数据时它会多出来大概20-30k的空间。
那么我们可以先打开我们的目标网站,我的网站为宝贝西装。打开connect端口,这样可以顺利登录,但是如果我们的目标网站打开不了,或者登录失败,你只需要打开一个自己的网站,创建一个账号,去爬数据,然后再回来。如果你是自己用,可以去百度搜如何上线项目,如果你是想测试使用,可以试试去百度搜一下如何使用,去这里,去。
然后接下来,我们就可以从这个网站获取我们想要的网页了,也可以采集出图片来,而不需要打开这个网站。接下来我们再看看看到底是什么东西,一般是有多种直接可以采集图片数据,基本上市常见的图片都可以采集,下面一一说明一下。首先我们打开图片网站先看一下,红色框中的图片,如果你们发现了不同,请记得回复,我会分享给大家的。
有一点是我们注意到的,打开后点击查看更多,所有和宝贝西装相关的图片一定是排在前面的,而不是看这里,这是什么意思呢?说明这里是每一件衣服都可以采集,这也是因为它不同的尺寸导致的,尺寸越小,采集到的数据越大,所以我们对它们采集到更多的数据来获取更多的商品图片。我在其他几篇文章也介绍过,采集pdf文件时,尺寸越小的图片的数据不是它,而是导入文件时,我会带有相应的尺寸数据,以供同样尺寸的图片可以通过尺寸对比,以及后续的数据分析。
接下来我们看下url,点击查看更多,我们可以看到我们所需要的url网址,不知道看上图你们有没有看懂,我在这里没有将图片简单地翻译成中文,因为。