文章采集功能(优采云采集网页文章正文教程:自定义数据合并方式详解教程)
优采云 发布时间: 2021-10-05 19:09文章采集功能(优采云采集网页文章正文教程:自定义数据合并方式详解教程)
数据内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。微信流行文章采集方法及详细步骤本文将以搜狗微信文章为例介绍优采云采集body的使用方法网页文章 。文章 一般正文收录文字和图片。本文将采集文章正文+图片网址。采集的以下字段:文章 标题、时间、来源和正文(正文中的所有文本将合并到一个excel单元格中,将使用“自定义数据合并方法”功能,请大家注意)同时采集文章正文中的文字+图片网址将使用“
网页打开后,默认显示“热门”文章。向下滚动页面,找到并点击“加载更多内容”按钮,在操作提示框中选择“更多操作”。信息内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。微信流行文章采集方法步骤三2)选择“循环点击单个元素”创建翻页循环。内容仅供大家学习和参考。如有不当或侵权,请联系更正或删除。微信热门文章采集 方法步骤4 由于本网页涉及Ajax技术,需要设置一些高级选项。选择“点击元素”步骤,打开“ 高级选项”,勾选“Ajax加载数据”,时间设置为“2 信息内容仅供您学习参考,如有不当或侵权,请联系更正或删除。微信流行文章采集 方法步骤5 AJAX是一种延迟加载和异步更新的脚本技术。在后台与服务器进行少量数据交换后,可以用于某些网页,而无需重新加载整个网页。部分更新。性能特点:当你点击网页中的一个选项时,网站的大部分网址不会发生变化;网页未完全加载,但仅部分加载了已更改的数据。验证:点击操作后,在浏览器中,URL输入栏在加载状态或转动状态下不出现。观察网页,我们发现点击“加载更多内容”5次后,页面加载到最底部,共显示100篇文章。
因此,我们将整个“循环车削”步骤设置为执行 5 次。选择“循环翻页”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5”,点击“确定”。更正或删除。微信流行文章采集方法步骤6 第三步:创建列表循环并提取数据1) 移动鼠标,选择页面第一个文章链接。系统会自动识别类似链接。在操作提示框中,选择“全选”。信息内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。微信热点文章采集方法步骤七2)选择“ 首先点击第一段文字文章,系统会自动识别页面中的相似元素,选择“全选”。信息内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。
微信热点文章采集 方法步骤10 可以看到所有的文本段落都被选中并变成了绿色。选择“采集 以下元素文本”。数据内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。微信人气文章采集方法步骤11 注:字段表中可自定义字段修改素材内容,仅供学习参考,如有不当或侵权,请联系更正或删除。微信流行文章采集方法步骤12 经过以上操作后,文字将全部采集向下(默认是每段文字为一个单元。一般来说,我们希望采集,合并到同一个单元格中。方法 步骤14 材料内容仅供学习参考 如有不当或侵权,请联系更正或删除。如图,查看微信流行文章采集方法 Step 15 Step 4: Modify Xpath 选中整个“Circular Step”,打开“Advanced Options”,可以看到优采云是默认生成的固定元素列表,前20篇文章的链接内容仅供大家学习参考。如有不当或侵权,请联系更正或删除。可以看到,优采云是默认生成的固定元素列表,前20篇文章的链接内容仅供大家学习参考。如有不当或侵权,请联系更正或删除。可以看到,优采云是默认生成的固定元素列表,前20篇文章的链接内容仅供大家学习参考。如有不当或侵权,请联系更正或删除。
微信热门文章采集方法 步骤16 在火狐浏览器中打开想要采集的网页,查看源码。我们发现经过这个Xpath://DIV[@class=´main-left´]/DIV[3]/UL/LI/DIV[2]/H3[1]/A,页面需要100页文章已定位,资料内容仅供大家学习参考。如有不当或侵权,请联系更正或删除。微信热点文章采集 方法步骤17 将修改后的Xpath复制粘贴到优采云所示位置,然后点击“确定”微信热点文章采集方法步骤18 信息内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。第五步:修改流程图结构。让' s 继续观察。单击“加载更多内容”5 次后,此页面将加载所有 100 章。所以,我们配置规则的思路是先建立一个翻页循环,加载全部100个文章,创建一个循环列表,提取数据,选中整个“循环”步骤,拖出“循环翻页”步骤。如果不这样做,微信上就会有很多重复的数据。文章采集 方法步骤19 拖动完成后,下图信息内容仅供大家学习参考。如有不当或侵权,请联系更正或删除。微信流行文章采集方法步骤20步骤6:数据采集并导出点击左上角“保存”,然后点击“开始采集 》,选择“开始本地采集”信息内容仅供学习参考。如有不当或侵权,请联系更正或删除。
微信流行文章采集方法步骤21 2)采集 完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,采集好数据导出资料的内容仅供大家学习参考。如有不当或侵权,请联系更正或删除。微信流行文章采集方法步骤22 这里我们选择excel作为导出格式。数据导出后,下图内容仅供大家学习参考。如有不当或侵权,请联系更正或删除。微信流行文章采集方法步骤234)如上图,文章的部分正文没有采集到达。那' s 因为系统自动生成的文章文本循环列表的Xpath://[@id="js_content"]/P,找不到这个文章的文本。修改Xpath为://[@id="js_content"]//P,文章的所有文字都可以位于素材内容中,仅供大家学习参考。如有不当或侵权,请联系更正或删除。修改Xpath微信热点文章采集方法步骤24 信息内容仅供大家学习参考。如有不当或侵权,请联系更正或删除。修改Xpath微信流行文章采集方法 Step 25 Step 7: 添加判断条件 经过上一步,我们只采集微信文章中的文字内容,不包括 文章 中的图片 URL。如果需要采集图片URL,则需要在规则中添加一个判断条件:判断文章的内容列表,如果收录img元素(图片),则执行图片采集 分支;
同时默认为左分支设置判断条件。如果满足这个判断条件,则分支向左分支;默认最右边的分支是“不判断,一直执行这个分支”,即不满足左边分支的判断条件时,执行最右边的分支。数据内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。回到这个规则,即设置左分支的条件:如果收录img元素(图片),则执行左分支;如果不满足左条件分支的条件(即不收录img元素),则执行右分支。具体操作如下:1)从左边的工具栏中拖一个“ 如有不当或侵权,请联系更正或删除。右侧分支-检测结果一直是True 微信流行文章采集方法步骤28 3)点击左侧分支,在出现的结果页面中(分支条件检测结果-检测结果始终为 True ) 单击“确定”。
然后为其设置判断条件:勾选“当前循环项收录元素”,输入元素Xpath://img(代表图片),点击“确定”。信息内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。点击左侧微信热点文章采集 方法步骤29 信息内容仅供您学习参考。如有不当或侵权,请联系更正或删除。对于左分支,设置判断条件微信热门文章采集 方法步骤30 设置左分支条件后,进行数据提取步骤。从左侧的工具栏中,拖入“提取数据”步骤 到流程图左侧分支(绿色加号处),在页面中选择一张图片,在操作提示框中选择“采集图片地址”信息内容仅供学习和参考。如有不当或侵权,请联系更正或删除。将新增的“提取数据”步骤拖入左侧分支微信热点文章采集 方法步骤31 信息内容仅供大家学习参考。如有不当或侵权,请联系更正或删除。采集图片地址微信热门文章采集方法步骤32选择右侧分支的“提取数据”步骤,点击“自定义数据字段”按钮,选择“
自定义定位元素方法微信流行文章采集方法第33步数据内容仅供大家学习参考。如有不当或侵权,请联系更正或删除。元素匹配Xpath,“相对Xpath”微信流行文章采集 方法步骤34 选择左侧分支的“提取数据”步骤,点击“自定义数据字段”按钮,选择“自定义定位元素” " "方法",引用右边分支相同位置的Xpath修改:"元素匹配Xpath"改为://*[@id="js_content"]/p[1]/img[1] ,“Relative Xpath”更改为:/img[1],然后点击“确定”。信息内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。微信流行文章采集方法步骤35 选择左侧分支的“提取数据”步骤,点击“自定义数据字段”按钮,选择“自定义数据合并方法”,如图勾选。检查后,多次提取的文本将添加为字段。内容仅供大家学习和参考。如有不当或侵权,请联系更正或删除。微信流行文章采集方法步骤36 判断条件中各分支“提取数据”步骤中的字段名称必须相同,字段数必须相同。在这里,我们将左右分支中提取的字段名称更改为“文本”。数据内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。
微信流行文章采集方法步骤37如上,整个判断条件就设置好了。点击左上角的“保存”和“开始采集”。我们发现在导出的excel表中,图片地址是一堆乱码。为什么是这样?继续观察网页——搜狗微信文章正文中的图片需要向下滚动才能加载,然后采集才能加载到正确的图片地址。因此,打开文章后,需要设置“页面加载后向下滚动”。这里设置滚动次数为“30”,滚动方式为“向下滚动一屏”,素材内容仅供大家学习参考,如有不当或侵权,请联系更正或删除微信文章正文中的图片,您需要向下滚动加载微信热门文章采集方法步骤38 数据内容供您使用仅供学习参考。如有不当或侵权,请联系更正或删除。加载设置页面后,向下滚动”微信流行文章采集方法步骤39 注意:这里的滚动次数、时间、方法设置会影响采集的速度和质量数据,本文仅供参考,大家可以根据需要设置10)重启采集,并导出数据,导出数据后,如图:导出数据微信人气文章采集 方法步骤40 数据内容仅供参考,如有不当或侵权,请联系更正或删除。数据示例 微信热门文章采集 方法步骤41 说明:由于搜狗微信文章中的图片,需要通过下拉Scroll加载出来。
在采集的过程中,等待图片加载的时间比较长,所以采集的速度比较慢。如果不需要采集图片,直接使用文本采集,不需要等待图片加载,采集会快很多。相关采集教程:京东商品信息采集新浪微博数据采集赶集招聘信息采集 优采云——70万用户精选的网页数据采集器 . 数据内容仅供您学习和参考。如有不当或侵权,请联系更正或删除。操作简单,任何人都可以使用:无需技术背景,即可上网采集。全可视化流程,点击鼠标即可完成操作,功能强大,任意< @网站可用于:点击、登录、翻页、身份验证码、Ajax脚本异步加载数据网页,都可以通过简单的设置进行设置采集。云采集,可以关掉。配置完采集任务后,可以关闭,任务可以在云端执行。庞达云采集集群24*7不间断运行,无需担心IP被封,网络中断。免费功能+增值服务,您可以根据自己的需求进行选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。识别验证码、Ajax脚本异步加载数据网页,都可以通过简单的设置采集进行设置。云采集,可以关掉。配置完采集任务后,可以关闭,任务可以在云端执行。庞达云采集集群24*7不间断运行,无需担心IP被封,网络中断。免费功能+增值服务,您可以根据自己的需求进行选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。识别验证码、Ajax脚本异步加载数据网页,都可以通过简单的设置采集进行设置。云采集,可以关掉。配置完采集任务后,可以关闭,任务可以在云端执行。庞达云采集集群24*7不间断运行,无需担心IP被封,网络中断。免费功能+增值服务,您可以根据自己的需求进行选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。它可以关闭。配置完采集任务后,可以关闭,任务可以在云端执行。庞达云采集集群24*7不间断运行,无需担心IP被封,网络中断。免费功能+增值服务,您可以根据自己的需求进行选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。它可以关闭。配置完采集任务后,可以关闭,任务可以在云端执行。庞达云采集集群24*7不间断运行,无需担心IP被封,网络中断。免费功能+增值服务,您可以根据自己的需求进行选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。您可以根据自己的需要进行选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。您可以根据自己的需要进行选择。免费版功能齐全,可以满足用户基本的采集需求。同时,还建立了一些增值服务(如私有云),以满足高端付费企业用户的需求。