如何文章采集(“自定义数据合并方式”详解教程:“判断条件”)

优采云 发布时间: 2022-04-07 23:29

  如何文章采集(“自定义数据合并方式”详解教程:“判断条件”)

  《微信流行文章采集方法及详细步骤》会员分享,可在线阅读。更多相关《微信热门文章采集方法与详细步骤(38页采集版)》,请在人人图书馆在线搜索。

  微信流行文章采集方法及详细步骤本文将以搜狗微信文章为例介绍优采云采集的文字使用方法网页文章 。文章文字一般包括文字和图片。本文将采集文章正文中的文字+图片网址。合并采集以下字段:文章标题、时间、来源、正文(正文中的所有文本将合并到一个excel单元格中,并使用“自定义数据合并方法”功能,请大家注意)。同时,采集文章正文中的文字+图片URL会用于“判断条件”,需要注意的地方很多。以下两个教程,您可以先熟悉它们。《自定义数据合并方法》详解教程:《判断条件》详解教程:采集网站:使用功能点:l分页列表信息采集l Xpathl AJAX点击和翻页l判断条件 l AJAX滚动步骤一:创建采集任务1)进入主界面,选择“自定义模式”微信热门文章采集方法步骤一2)将采集的网址复制粘贴到网站的输入框中,点击“保存网址”微信热门文章采集方法步骤二步骤二:创建页面Turning Loop1) 在页面右上角,打开“Process”,显示“Process Designer”和“Customize Current Action”两个部分。打开网页时,默认显示“热门”文章。向下滚动页面,找到并点击“加载更多内容”按钮,在操作提示框中选择“更多动作”微信热门文章采集方法步骤32)选择“循环点击“单个元素”创建翻页循环

  选择“点击元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”微信流行文章采集方法步骤5注意:AJAX表示延迟加载, 一种异步更新的脚本技术,通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某一部分。性能特点: a.当点击网页上的某个选项时,网站的大部分URL不会改变;湾。网页没有完全加载,而只是部分加载了数据,这些数据会发生变化。验证方法:点击操作后,在浏览器中,URL输入栏不会出现在加载状态或圆圈状态。观察网页,我们发现点击“加载更多内容”5次后,页面加载到底部,一共显示了100篇文章文章。因此,我们将整个“循环页面”步骤设置为执行 5 次。选择“循环翻页”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”微信流行文章采集 方法 步骤 6 步骤 3:创建一个列表循环并提取数据1) 移动鼠标选择页面上的第一个 文章 链接。系统会自动识别相似链接。在操作提示框中选择“全选”微信热门文章采集方法步骤72)选择“循环点击每个链接” 微信热门文章采集方法步骤83)系统会自动进入文章详情页面。点击需要采集的字段(这里先点击文章标题),在操作提示框中选择“采集该元素的文本”。

  文章发布时间,文章源字段采集方法同微信大众文章采集方法步骤94)下一个开始采集文章文字。首先点击第一段文章文字,系统会自动识别页面中的相似元素,选择“全选”微信热门文章采集方法步骤105)@ >您可以看到,所有正文段落都被选中并变为绿色。选择“采集以下元素文本”微信热门文章采集方法步骤11注意:在字段表中,可以自定义修改字段微信热门文章采集方法步骤126)经过以上操作,文字全部向下采集(默认每段文字为一个单元格)。一般来说,我们希望 采集 的主体被合并到同一个单元格中。点击“自定义数据字段”按钮,选择“自定义数据合并方式”,勾选“同一字段多次提取并合并为一行,即追加到同一字段,如文本页面合并”,然后点击“确定”微信流行文章采集方法步骤13“自定义数据字段”按钮选择“自定义数据合并方法”微信流行文章采集方法步骤14查看微信流行文章采集方法步骤14 @文章采集方法步骤15步骤4:修改Xpath1)选择整个“循环步骤”,打开“高级选项”,可以看到优采云默认生成固定元素List,定位文章微信人气排名前20的链接文章采集方法步骤162)用火狐浏览器打开采集网页,观察源码。我们发现,通过这个Xpath:/DIVclass='main-left'/DIV3/UL/LI/DIV2/H31/A,页面中的100条必填文章文章都位于微信热点文章采集方法步骤173)将修改后的Xpath复制粘贴到优采云所示位置,然后点击“确定”微信流行文章采集方法Step 18 Step 5:修改流程图结构我们继续观察,点击“加载更多内容”5次后,该网页加载了全部100篇文章文章。网页并观察源代码。我们发现,通过这个Xpath:/DIVclass='main-left'/DIV3/UL/LI/DIV2/H31/A,页面中的100条必填文章文章都位于微信热点文章采集方法步骤173)将修改后的Xpath复制粘贴到优采云所示位置,然后点击“确定”微信流行文章采集方法Step 18 Step 5:修改流程图结构我们继续观察,点击“加载更多内容”5次后,该网页加载了全部100篇文章文章。网页并观察源代码。我们发现,通过这个Xpath:/DIVclass='main-left'/DIV3/UL/LI/DIV2/H31/A,页面中的100条必填文章文章都位于微信热点文章采集方法步骤173)将修改后的Xpath复制粘贴到优采云所示位置,然后点击“确定”微信流行文章采集方法Step 18 Step 5:修改流程图结构我们继续观察,点击“加载更多内容”5次后,该网页加载了全部100篇文章文章。

  因此,我们配置规则的思路是,首先建立一个翻页循环,加载所有100篇文章文章,然后创建一个循环列表,提取数据1)选择整个“循环”步骤,并将其拖出“循环”。翻页”步骤。如果不执行此操作,会有很多重复数据微信流行文章采集方法步骤19 拖动完成后,如下图微信流行< @文章采集 Method Step 20 Step 6: Data采集 and Export1) 点击左上角的“Save”,然后点击“Start采集”,然后选择“启动本地采集”微信流行文章采集方法步骤212)采集完成后采集,会弹出提示,选择“导出数据”,选择“合适的导出方法”,将采集好数据导出微信流行文章采集方法步骤223)这里我们选择excel作为导出格式,数据导出后,微信流行的文章采集方法步骤234)如上图,部分文章的文字为不是 采集。那是因为系统自动生成的文章文本循环列表的Xpath:/id="js_content"/P找不到这个文章的文本。修改Xpath为:/id="js_content"/P,所有文章文本都可以定位到流行的微信之前修改Xpath文章采集方法步骤24修改Xpath后、微信人气文章采集

  如果需要采集图片URL,需要在规则中添加判断条件:判断文章的内容列表,如果收录img元素(图片),则执行图片采集分支; 如果不收录img元素(图片),则执行文本采集分支。同时,在优采云中,默认为左分支设置判断条件。如果满足判断条件,则执行左分支;当左分支的判断条件不满足时,执行最右分支。回到这个规则,也就是在左分支上设置一个条件:如果收录img元素(图片),则执行左分支;如果左条件分支的条件不满足(即不包括img元素),则执行右分支。具体操作如下: 1) 从左侧工具栏中,拖一个“判断条件”步骤进入流程(拖住选中的图标,拖到箭头所指的绿色加号位置)微信流行文章采集方法步骤262)判断条件出现在流程图中。我们将“提取数据”步骤移至右侧分支(绿色加号)。然后点击右侧分支,在出现的结果页面(分支条件检测结果-检测结果始终为True),点击“确定”将“提取元素”步骤拖入右侧分支微信流行文章 采集方法步骤27右分支-检测结果始终为真微信热门文章采集方法步骤283)点击左分支,

  然后为其设置判断条件:勾选“当前循环项收录元素”,输入元素Xpath:/img(代表一个图片),然后点击“确定”,点击左侧分支微信流行文章采集方法 Step 29 对于左分支,设置判断条件微信流行文章采集方法 Step 304)设置左分支条件后,进行数据提取步骤。从左侧工具栏中,将“提取数据”步骤拖到流程图左侧分支(绿色加号),然后在页面上选择一张图片,在操作提示框中选择“采集这张图片地址”进入新的“提取数据”步骤,左侧分支微信热门文章采集方法步骤31采集图片地址微信热门<

  经检查,多次提取的文本会附加为微信流行的字段文章采集方法步骤368)注意,在优采云中,在判断条件的每个分支中“提取数据”步骤中的字段名称必须相同,字段数量必须相同。这里,我们将左右分支中提取的字段名改为“文本”微信流行文章采集方法步骤379)如上,整个判断条件设置完毕。点击左上角的“保存”和“开始采集”。我们发现在导出的excel表格中,图片地址是一堆乱码。为什么是这样?继续观察搜狗微信文章页面文字中的图片。您需要向下滚动才能加载它们。加载后,可以采集到正确的图片地址。因此,打开文章后,需要设置为“页面加载完成后向下滚动”。这里设置滚动次数为“30次”,每次间隔时间为“2秒”,滚动方式为“向下滚动一屏”。微信文章文字中的图片需要向下滚动才能加载热门微信文章采集方法步骤38设置“页面加载后向下滚动”微信热门文章采集Method Step 39 注意:这里是滚动次数、时间、方法的设置,会影响采集数据的速度和质量。本文仅供参考,可根据需要设置10)restart采集,并导出数据,

  在 采集 过程中,会花费大量时间等待图片加载,因此 采集 比较慢。如果不需要采集图片,直接使用文字采集,不用等待图片加载,采集会快很多。相关采集教程:京东商品资讯采集新浪微博资料采集职场招聘资讯采集优采云70万用户精选网页资料采集器. 1、简单易用,任何人都可以使用:无需技术背景,只需了解互联网采集。完成流程可视化,点击鼠标完成操作,2分钟快速上手。2、功能强大,任意网站可选:用于点击、登录、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据,都可以通过简单的设置采集进行设置。3、云采集,你也可以关机。配置采集任务后,可以将其关闭,并可以在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP阻塞和网络中断。4、功能免费+增值服务,按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务(如私有云),满足高端付费企业用户的需求。所有这些都可以通过简单的设置采集进行设置。3、云采集,你也可以关机。配置采集任务后,可以将其关闭,并可以在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP阻塞和网络中断。4、功能免费+增值服务,按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务(如私有云),满足高端付费企业用户的需求。所有这些都可以通过简单的设置采集进行设置。3、云采集,你也可以关机。配置采集任务后,可以将其关闭,并可以在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP阻塞和网络中断。4、功能免费+增值服务,按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务(如私有云),满足高端付费企业用户的需求。它可以关闭,任务可以在云端执行。庞大的云采集集群24*7不间断运行,无需担心IP阻塞和网络中断。4、功能免费+增值服务,按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务(如私有云),满足高端付费企业用户的需求。它可以关闭,任务可以在云端执行。庞大的云采集集群24*7不间断运行,无需担心IP阻塞和网络中断。4、功能免费+增值服务,按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务(如私有云),满足高端付费企业用户的需求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线