“自定义数据合并方式”详解教程中的应用
优采云 发布时间: 2021-08-24 23:05“自定义数据合并方式”详解教程中的应用
很多时候,我们需要采集网站文章text。本文以搜狗微信文章为例介绍优采云采集网页文章的使用方法。 文章 一般正文有文字和图片两种。本文仅在采集的正文中演示本文的方法,图片和文章采集将在另一篇教程中介绍。
本文将采集以下字段:文章title、时间、来源和正文(正文中的所有文本将合并到一个excel单元格中,并使用“自定义数据合并方法”功能,请大家注意)。下面是“自定义数据合并方法”的详细教程,大家可以先了解一下:
/tutorialdetail-1/zdyhb_7.html
采集网站:
使用功能点:
l寻呼列表信息采集
/tutorial/fylb-70.aspx?t=1
lXpath
/tutorial/gnd/xpath
lAJAX 点击和翻页
/tutorialdetail-1/ajaxdjfy_@k21@html
第一步:创建采集task
1)进入主界面,选择“自定义模式”
2) 将采集的网址复制粘贴到网站输入框中,点击“保存网址”
第 2 步:创建翻页循环
1) 在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两个部分。打开网页后,默认显示“热门”文章。向下滚动页面,找到并点击“加载更多内容”按钮,在操作提示框中选择“更多操作”
2)选择“循环点击单个元素”创建翻页循环
由于本网页涉及Ajax技术,所以需要设置一些高级选项。选择“点击元素”这一步,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”
注:AJAX 是一种延迟加载和异步更新的脚本技术。通过后台与服务器的少量数据交换,无需重新加载整个网页即可更新网页的某一部分。
性能特点:当你点击网页上的一个选项时,网站的大部分网址不会改变;湾网页未完全加载,但仅部分加载了数据,数据会发生变化。
验证方法:点击操作后,URL输入栏在浏览器中不会出现加载状态或转动状态。
观察网页,我们发现点击“加载更多内容”5次后,页面加载到底部,一共显示了100个文章。因此,我们将整个“循环翻页”步骤设置为执行 5 次。选择“循环翻页”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”
第 3 步:创建一个列表循环并提取数据
1)移动鼠标并选择页面上的第一个文章链接。系统会自动识别相似链接,在操作提示框中选择“全选”
2)选择“点击循环中的每个链接”
3)系统会自动进入文章详情页面。点击需要采集的字段(这里先点击文章标题),在操作提示框中选择“采集元素的文本”。 文章发布时间,文章source 字段采集 方法相同
4)Next 开始采集文章 文本。点击文章文字的第一段,系统会自动识别页面上的相似元素,并选择“全选”
5)你可以看到所有的文本段落都被选中并变成了绿色。选择“采集以下元素文本”
注意:在字段表中,可以自定义字段的修改
6)经过以上操作后,body会全部采集down(默认body的每一段都是一个单元格)。一般来说,我们希望采集 的body 合并到同一个cell 中。点击“自定义数据字段”按钮,选择“自定义数据合并方法”,勾选“多次提取并合并同一个字段为一行,即追加到同一个字段,如文本页面合并”,然后点击“确定”
“自定义数据字段”按钮
选择“自定义数据合并方法”
如图所示勾选
第 4 步:修改 Xpath
1)选择整个“循环步骤”,打开“高级选项”,可以看到优采云默认生成一个固定元素列表,并定位到前20篇文章的链接文章
2)在火狐浏览器中打开你想要的网页采集,观察源码。我们通过这个Xpath发现:
//DIV[@class='main-left']/DIV[3]/UL/LI/DIV[2]/H3[1]/A,页面文章必填的100篇文章都是定位
3)将修改后的Xpath复制粘贴到优采云所示位置,然后点击“确定”
第五步:修改流程图结构
继续观察,点击“加载更多内容”5次后,这个网页加载了全部100个文章。所以我们配置规则的思路是先建立一个翻页循环,加载所有100个文章,然后创建一个循环列表提取数据
1)选择整个“循环”步骤并将其拖出“循环翻转”步骤。如果不这样做,就会出现大量重复数据。
拖动完成后,如下图
第六步:数据采集并导出
1)点击左上角“保存”,然后点击“开始采集”,选择“开始本地采集”
2)采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好数据
3)这里我们选择excel作为导出格式,导出数据如下图
4)如上图所示,文章的身体部分没有采集到达。那是因为系统自动生成的文章body的循环列表的Xpath://[@id="js_content"]/P,无法定位到这个文章的body。修改Xpath为://[@id="js_content"]//P,所有文章文本都可以定位
修改Xpath之前
说明:本文方法仅适用于采集的文字内容