网页文章采集器(优采云图片批量下载工具下载方法及应用技巧)
优采云 发布时间: 2021-10-07 12:17网页文章采集器(优采云图片批量下载工具下载方法及应用技巧)
一、图片采集
在优采云中,采集的图片有以下2个步骤
1、第一个采集网页图片链接地址
2、通过优采云提供的图片批量下载工具批量下载URL到本地。点击下载:优采云图片批量下载工具
二、常见应用场景
1、非瀑布流网站纯图采集
采集示例:豆瓣图片采集教程
2、瀑布网站纯图片采集(向下滚动加载新图片)
采集示例:百度图片采集教程
3、文章图形采集
图文分离采集
采集示例:UC 标题图文采集
三、图片采集并下载到本地实例
1、采集图片地址
Step1:在网页上选择一张图片→全选→采集以下图片地址
鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图
这同样适用于下面的其他图片
Step2:启动采集,查看采集的结果,图片URL被采集down
2、 批量下载图片地址到本地
经过上面的操作,我们得到了图片的URL为采集。接下来使用优采云专用的图片批量下载工具,将采集到达的图片URL中的图片下载并保存到本地。
Step1:下载优采云图片批量下载工具:优采云图片批量下载工具
下载完成后双击文件中的MyDownloader.app.exe打开软件
Step2:点击【文件】,选择从EXCEL导入(目前只支持EXCEL格式的文件)
Step3:进行相关设置
选择EXCEL文件:导入需要下载图片地址的EXCEL文件
EXCEL表名:对应数据表的名称
文件URL列名:表中图片URL所在列的名称
保存文件夹列名:EXCEL中需要单独一列,列出图片本地要保存的路径(哪个文件夹)。
列名可以自定义。
列中数据有固定格式:[D:\图片保存文件夹名\],这里可以自定义存储盘和文件夹名,[D:\\]需要输入英文,不能输入中国人。
配置完成后,点击【确定】保存。
下面是一个示例演示:
根据以上,配置EXCEL表名、文件URL列名和图片保存文件夹名
将图片 url采集 导出到 Excel。打开Excel,添加一列,列名是【图片保存文件夹】,列中的数据是【D:\百度图片采集\】,那么批量下载的图片就会保存在【百度图片< @采集] 文件夹。
注意:除了用Excel添加【保存文件夹名称】。也可以直接在优采云中提取一个字段作为【保存文件夹名称】。详情请下拉查看本文第四部分。
配置完成后点击【开始下载】
打开D盘,找到【百度图片采集】文件夹,查看图片
四、图片采集和批量导出技术
1、 使用文章title/search关键词作为【图片保存文件夹】实现文章与图片的对应
抓取优采云中的字段时,提前添加一个字段(一般为文章title/search关键词)作为图片文件夹的名称。
以百度图片采集为例。我们想用搜索到的关键词作为保存图片的文件夹名。
Step1:写下关键词采集的文字。修改字段名称为【图片保存文件夹】。根据【图片保存文件夹】字段格式要求:【D:\一级文件夹名称\二级文件夹名称\】,希望一级文件夹名称固定为【百度图片采集@】 > 】,二级文件夹名称,跟着搜索关键词更改。
可以将采集中的关键词中的文本进行格式化,添加前缀[D:\百度图片采集\],添加后缀[\]满足格式要求。
Step2:启动采集查看采集的结果,可以看到在采集到的数据中,已经有一个【图片保存文件夹】字段,不需要手动设置
Step3:图片导出操作后,打开D盘,找到【百度图片采集】文件夹,可以看到子文件夹命名为关键词。
2、给图片编号。
在【图片保存文件夹】后添加序号+图片格式,如:【D:\一级文件夹名\二级文件夹名\1.jpg】,即可对下载的图片进行编号。
Step1:使用excel自动编号
Step2:然后按照前面提到的方法导出图片。导出完成后,打开D盘,在【百度图片采集】文件夹中找到子文件夹。可以看到图片为1、2、3、4. ..... 自动命名。
五、备注
1、支持下载格式
①当从采集下载的图片URL以.jpg、.gif、.png等图片格式结尾时,一般可以批量转换成图片
②如果来自采集的URL不是以图片格式结尾,则可能无法转换。可能是网站加密了这个图片链接,只支持在线查看
2、图片URL乱码怎么处理
如果图片网址采集是乱码或者都一样,可能是图片需要一定的加载时间。我们需要在数据提取步骤和设置执行之前等待,让图片完全加载;对于当前屏幕上的显示,如果图片在一段时间后可以完全加载,则需要对ajax滚动进行相应的设置。详情请参考ajax滚动教程。