UC头条采集文章的采集方法及注意事项(组图)

优采云 发布时间: 2021-08-26 05:05

  UC头条采集文章的采集方法及注意事项(组图)

  UC今日头条是UC浏览器团队打造的新闻资讯推荐平台。拥有海量新闻资讯内容,通过阿里大数据推荐和机器学习算法,为用户提供优质贴心的文章。很多用户可能有采集UC头条文章采集的需求,这里是采集了文章的文字和图片。文字可以直接采集,对于图片,需要先下载图片网址采集,然后将图片网址批量转换成图片。

  本文中采集UC头条的文章和采集字段为:标题、出版商、发表时间、文章内容、页面网址、图片网址。

  采集网站:

  使用功能点:

  lXpath

  xpath 入门教程 1

  xpath 2 简介

  相关XPATH教程-7.0版本

  lAJAX 滚动教程

  /tutorialdetail-1/ajgd_7.html

  第一步:创建采集task

  1)进入主界面,选择“自定义模式”

  

  2) 将采集的网址复制粘贴到网站输入框中,点击“保存网址”

  

  3)在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两部分。打开网页后,默认显示“推荐”文章。观察到这个网页没有翻页按钮,而是通过下拉加载,不断加载新内容

  因此,我们选择“打开网页”这一步,在高级选项中,勾选“页面加载后向下滚动”,滚动次数根据自己的需要设置,间隔时间根据需要设置网页加载情况。滚动方式为“向下滚动一屏”,点击“确定”

  

  (注意:间隔时间需要针对网站情况设置,不是绝对的。一般情况下间隔时间>网站loading时间就足够了。有时候网速慢,网页加载很慢,需要根据具体情况进行调整,详见:优采云7.0教程-AJAX滚动教程

  /tutorialdetail-1/ajgd_7.html)

  第 2 步:创建翻页循环并提取数据

  1)移动鼠标并选择页面上的第一个文章链接。系统会自动识别相似链接,在操作提示框中选择“全选”

  

  2)选择“点击循环中的每个链接”

  

  3) 系统会自动进入文章详情页。点击需要采集的字段(这里先点击文章标题),在操作提示框中选择“采集这个元素的文字”

  

  文章publishing time, 文章author, 文章publishing time, 文章body content采集 方法同上。以下采集为文章文字

  

  第三步:提取图片地址

  1)下一个开始采集图片地址。先点击文章中的第一张图片,然后点击页面上的第二张图片,在弹出的操作提示框中选择“采集以下图片地址”

  

  2)修改字段名点击“确定”

  

  3)现在我们已经采集到达图片网址,我们准备批量导出图片。批量导出图片时,我们希望把同一个文章中的图片放到同一个文件中,文件夹以文章title命名。

  首先我们选择标题,在操作提示框中选择“采集元素的文本”

  

  选择标题字段,点击按钮,如图

  

  选择“格式化数据”

  

  点击添加步骤

  

  选择“添加前缀”

  

  在图中所示位置输入前缀:“D:\UC头条图片采集\”,然后点击“确定”

  

  同理添加后缀“\”,点击“确定”

  

  4)修改字段名称为“图片存储地址”,最后显示的“D:\UC头条图片采集\文章title”为图片存储文件夹的名称,其中“D: \UC 标题图片采集\" 已修复,文章title 已更改

  

  第 4 步:修改 Xpath

  1)选择整个“循环”步骤,打开“高级选项”,可以看到优采云默认生成固定元素列表,并定位到前13篇文章的链接文章

  

  2)在火狐浏览器中打开你想要采集的网页,观察源码。我们通过这个Xpath发现:

  //DIV[@class='news-list']/UL[1]/LI/DIV[1]/DIV[1]/A,页面中所有需要的文章都位于

  

  3)将修改后的Xpath复制粘贴到优采云所示位置,然后点击“确定”

  

  第五步:数据采集并导出

  1)点击左上角“保存”,然后点击“开始采集”,选择“开始本地采集”

  

  注意:本地采集占用采集当前电脑资源,如果有采集时间要求或者当前电脑不能长时间采集可以使用cloud采集功能,云采集在网络上 对于采集,不需要当前计算机支持,可以关闭计算机,可以设置多个云节点分配任务。 10个节点相当于10台电脑分配任务帮你采集,速度降低到原来的十分之一; 采集收到的数据可以在云端存储三个月,随时可以导出。

  2)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好数据

  

  3)这里我们选择excel作为导出格式,导出数据如下图

  

  第六步:批量转换图片网址为图片

  经过以上操作,我们就得到了采集的图片的URL。接下来使用优采云专用图片批量下载工具,将采集发送的图片URL中的图片下载并保存到本地。

  图片批量下载工具:

  1)下载优采云图片批量下载工具,双击文件中的MyDownloader.app.exe文件打开软件

  

  2)打开文件菜单,选择从EXCEL导入(目前只支持EXCEL格式文件)

  

  3)进行相关设置,设置完成后点击确定导入文件

  选择EXCEL文件:导入需要下载的EXCEL文件图片地址

  EXCEL 表名:对应数据表的名称

  文件URL列名:表中对应URL的列名,这里是“图片URL”

  保存文件夹名称:EXCEL中需要单独一栏列出要保存的图片到文件夹的路径。可以设置不同的图片存放在不同的文件夹中,这里是“图片存放地址”

  您可以设置不同的图片存储在不同的文件夹中。在这里,我们已经在早期准备好了。同一篇文章文章中的图片会放在同一个文件中,文件夹以文章title命名

  

  4)点击确定后,界面如图,然后点击“开始下载”

  

  5)页面底部会显示图片下载状态

  

  6)所有下载完成后,找到你设置的图片保存文件夹,可以看到图片URL已经批量转换为图片,同一个文章中的图片会放入同一个文件,文件夹以文章title

  命名

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线