“自定义数据合并方式”详解教程中的应用

优采云发布时间: 2021-08-24 23:05

　　“自定义数据合并方式”详解教程中的应用

　　很多时候，我们需要采集网站文章text。本文以搜狗微信文章为例介绍优采云采集网页文章的使用方法。文章一般正文有文字和图片两种。本文仅在采集的正文中演示本文的方法，图片和文章采集将在另一篇教程中介绍。

　　本文将采集以下字段：文章title、时间、来源和正文（正文中的所有文本将合并到一个excel单元格中，并使用“自定义数据合并方法”功能，请大家注意）。下面是“自定义数据合并方法”的详细教程，大家可以先了解一下：

　　/tutorialdetail-1/zdyhb_7.html

　　采集网站:

　　使用功能点：

　　l寻呼列表信息采集

　　/tutorial/fylb-70.aspx?t=1

　　lXpath

　　/tutorial/gnd/xpath

　　lAJAX 点击和翻页

　　/tutorialdetail-1/ajaxdjfy_@k21@html

　　第一步：创建采集task

　　1）进入主界面，选择“自定义模式”

　　2）将采集的网址复制粘贴到网站输入框中，点击“保存网址”

　　第 2 步：创建翻页循环

　　1）在页面右上角，打开“流程”，显示“流程设计器”和“自定义当前操作”两个部分。打开网页后，默认显示“热门”文章。向下滚动页面，找到并点击“加载更多内容”按钮，在操作提示框中选择“更多操作”

　　2）选择“循环点击单个元素”创建翻页循环

　　由于本网页涉及Ajax技术，所以需要设置一些高级选项。选择“点击元素”这一步，打开“高级选项”，勾选“Ajax加载数据”，设置时间为“2秒”

　　注：AJAX 是一种延迟加载和异步更新的脚本技术。通过后台与服务器的少量数据交换，无需重新加载整个网页即可更新网页的某一部分。

　　性能特点：当你点击网页上的一个选项时，网站的大部分网址不会改变；湾网页未完全加载，但仅部分加载了数据，数据会发生变化。

　　验证方法：点击操作后，URL输入栏在浏览器中不会出现加载状态或转动状态。

　　观察网页，我们发现点击“加载更多内容”5次后，页面加载到底部，一共显示了100个文章。因此，我们将整个“循环翻页”步骤设置为执行 5 次。选择“循环翻页”步骤，打开“高级选项”，打开“满足以下条件时退出循环”，设置循环次数等于“5次”，点击“确定”

　　第 3 步：创建一个列表循环并提取数据

　　1）移动鼠标并选择页面上的第一个文章链接。系统会自动识别相似链接，在操作提示框中选择“全选”

　　2）选择“点击循环中的每个链接”

　　3）系统会自动进入文章详情页面。点击需要采集的字段（这里先点击文章标题），在操作提示框中选择“采集元素的文本”。文章发布时间，文章source 字段采集方法相同

　　4）Next 开始采集文章文本。点击文章文字的第一段，系统会自动识别页面上的相似元素，并选择“全选”

　　5）你可以看到所有的文本段落都被选中并变成了绿色。选择“采集以下元素文本”

　　注意：在字段表中，可以自定义字段的修改

　　6）经过以上操作后，body会全部采集down（默认body的每一段都是一个单元格）。一般来说，我们希望采集的body 合并到同一个cell 中。点击“自定义数据字段”按钮，选择“自定义数据合并方法”，勾选“多次提取并合并同一个字段为一行，即追加到同一个字段，如文本页面合并”，然后点击“确定”

　　“自定义数据字段”按钮

　　选择“自定义数据合并方法”

　　如图所示勾选

　　第 4 步：修改 Xpath

　　1）选择整个“循环步骤”，打开“高级选项”，可以看到优采云默认生成一个固定元素列表，并定位到前20篇文章的链接文章

　　2）在火狐浏览器中打开你想要的网页采集，观察源码。我们通过这个Xpath发现：

　　//DIV[@class='main-left']/DIV[3]/UL/LI/DIV[2]/H3[1]/A，页面文章必填的100篇文章都是定位

　　3）将修改后的Xpath复制粘贴到优采云所示位置，然后点击“确定”

　　第五步：修改流程图结构

　　继续观察，点击“加载更多内容”5次后，这个网页加载了全部100个文章。所以我们配置规则的思路是先建立一个翻页循环，加载所有100个文章，然后创建一个循环列表提取数据

　　1）选择整个“循环”步骤并将其拖出“循环翻转”步骤。如果不这样做，就会出现大量重复数据。

　　拖动完成后，如下图

　　第六步：数据采集并导出

　　1）点击左上角“保存”，然后点击“开始采集”，选择“开始本地采集”

　　2）采集完成后会弹出提示，选择“导出数据”，选择“合适的导出方式”，导出采集好数据

　　3）这里我们选择excel作为导出格式，导出数据如下图

　　4）如上图所示，文章的身体部分没有采集到达。那是因为系统自动生成的文章body的循环列表的Xpath：//[@id="js_content"]/P，无法定位到这个文章的body。修改Xpath为：//[@id="js_content"]//P，所有文章文本都可以定位

　　修改Xpath之前

　　说明：本文方法仅适用于采集的文字内容

0

2021-08-24

文章采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

“自定义数据合并方式”详解教程中的应用

0 个评论

发起人

AI时代内容工厂

“自定义数据合并方式”详解教程中的应用

0 个评论

发起人

相关问题