使用优采云采集瀑布流网站图片采集详细说明(组图)

优采云 发布时间: 2021-05-06 03:01

  使用优采云采集瀑布流网站图片采集详细说明(组图)

  本文介绍了使用优采云 采集瀑布流网站图片的方法(以百度图片采集为例)。

  采集 网站:%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90

  使用功能点:

  lAjax向下滚动

  / tutorialdetail-1 / ajgd_ 7. html

  l分页列表信息采集

  / tutorialdetail-1 / fylb-7 0. html

  百度图片:百度图片发现了五彩缤纷的世界,百度从8亿中文网页中提取了各种图片,并建立了中文图片库。百度影视(Baidu Pictures)拥有数十亿个中文网页,收录亿万张图片的庞大画廊,并且还在不断增加。

  百度图片采集数据描述:本文以瀑布图片网站图片为例,以百度图片采集为例进行了分析。本文仅以“百度图片采集”为例。在实际操作中,您可以根据自己的需要更改百度其他内容的数据采集。

  百度图片采集字段的详细说明:图片地址,图片文件。

  第1步:创建采集任务

  1)进入主界面并选择自定义模式

  

  2)复制上述URL的URL并将其粘贴到网站输入框中,单击“保存URL”

  

  3)系统自动打开网页。我们发现百度图片网络是一个瀑布式网页。每次下拉加载后,将显示新数据。当有足够的图片时,可以将它们下拉并加载无数次。因此,此页面涉及AJAX技术,需要设置AJAX超时时间以确保不会丢失数据采集。

  选择“打开网页”步骤,打开“高级选项”,选中“页面加载完成向下滚动”,将滚动次数设置为“ 5次”(根据自己的需要设置),时间为“ 2秒”,滚动方式为“向下滚动一屏”;最后点击“确定”

  

  注意:例如网站,没有翻页按钮。滚动数和滚动方法会影响数据数采集,可以根据需要设置。

  第2步:采集图片网址

  1)选择页面上的第一张照片,系统将自动识别相似的照片。在操作提示框中,选择“全选”

  

  2)选择“ 采集以下图片地址”

  

  第3步:修改Xpath

  1)选择“循环”步骤并打开“高级选项”。可以看出,优采云系统自动采用“非固定元素列表”循环,并且Xpath为:// DIV [@ id ='imgid'] / DIV [1] / UL [1] / LI

  

  2)此Xpath:// DIV [@ id ='imgid'] / DIV [1] / UL [1] / LI,将其复制到Firefox浏览器中以进行观察-仅可找到该网页22张图片在

  

  3)我们需要一个Xpath,它可以在网页中找到所有必需的图片。观察网页的源代码,并将Xpath修改为:// DIV [@ id ='imgid'] / DIV / UL [1] / LI,找到网页中所有必需的图片

  

  4)复制并粘贴修改后的Xpath:// DIV [@ id ='imgid'] / DIV / UL [1] / LI到优采云中的相应位置,完成后单击“确定”。

  

  5)单击“保存”,然后单击“启动采集”,在这里选择“启动本地采集”

  

  注意:本地采集占用了采集的当前计算机资源,如果有采集时间要求或当前计算机无法长时间运行采集,则可以使用云采集 ]功能,并且云采集在网络中对于采集,不需要当前的计算机支持,可以关闭计算机,并且可以设置多个云节点来共享任务。 10个节点相当于10台计算机来分配任务以帮助您采集,并且速度降低到原创速度的十分之一; [k15中获得的数据]可以在云中存储三个月,并且可以导出随时。第4步:数据采集并导出

  1) 采集完成后,将弹出提示并选择导出数据

  

  2)选择合适的导出方法并导出采集良好数据

  

  第5步:将图片网址批量转换为图片

  完成上述操作后,我们获得了采集图片的URL。接下来,使用用于优采云的特殊图像批处理下载工具将图片URL中的图片下载并保存到采集到本地计算机。

  图片批量下载工具:

  1)下载优采云图片批量下载工具,双击文件中的MyDownloader.app.exe文件以打开软件

  

  2)打开“文件”菜单,然后选择从EXCEL导入(当前仅支持EXCEL格式的文件)

  

  3)进行相关设置,设置完成后,单击“确定”以导入文件

  选择EXCEL文件:导入需要下载图片地址的EXCEL文件

  EXCEL表名:对应数据表的名称

  文件URL列名:表中相应URL的列名

  保存文件夹名称:EXCEL中需要一个单独的列,以列出要保存到文件夹的图片的路径。您可以设置不同的图片以存储在不同的文件夹中

  如果要将文件保存到文件夹,则路径需要以“ \”结尾,例如:“ D:\ Sync \”,如果要在下载后根据指定的文件名保存文件,则需要收录特定的文件名,例如“ D:\ Sync \ 1. jpg”

  如果下载的文件路径和文件名完全相同,则原创文件将被删除

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线