微信公众号内容采集教程. docx29页

优采云 发布时间: 2020-08-06 14:14

  优采云·云采集服务平台微信公众号文章文本采集教程很多时候,我们需要采集网页文章的文本. 本文以搜狗微信文章为例,介绍利用优采云采集网页正文的方法. 文章的正文通常包括文本和图片. 本文仅演示了在正文中采集文本的方法,图像采集将在另一个教程中进行讨论. 本文将采集以下字段: 文章标题,时间,来源和正文(正文中的所有文本都将合并到excel单元格中,并且将使用“自定义数据合并方法”功能,请注意). 以下是“自定义数据合并方法”的详细教程,您可以首先学习: /tutorialdetail-1/zdyhb_7.html集合网站: /使用功能点: 分页列表信息集合“ HYPERLINK” /tutorial/fylb-70.aspx ?t = 1“ /tutorial/fylb-70.aspx?t=1Xpath HYPERLINK” / search?query = XPath“ / search?query = XPathAJAX点击并翻页HYPERLINK” /tutorialdetail-1/ajaxdjfy_7.html“ / tutorialdetail- 1 / ajaxdjfy_7.html步骤1: 创建采集任务1)进入主界面,选择“自定义模式”微信公众号文章正文采集步骤12)复制要采集的URL并粘贴到网站输入框中,单击“保存”. URL”微信公众号2文本采集步骤2 HYPERLINK” / article / javascript :;”步骤2: 创建翻页循环在页面的右上角,打开“ Process”以显示“ Process Designer”和“ Customize Current Operation”的两个部分.

  打开网页后,默认显示“热门”文章. 向下滚动页面,找到并单击“加载更多内容”按钮,在操作提示框中选择“更多操作”,微信公众号文章正文采集步骤3,选择“循环点击单个元素”,创建页面翻转循环微信公众号文章文本采集步骤4由于此网页涉及Ajax技术,因此我们需要设置一些高级选项. 选择“单击元素”步骤,打开“高级选项”,选中“ Ajax加载数据”,将时间设置为“ 2秒”,微信公众号文章正文采集步骤5注意: AJAX是延迟加载和异步更新的脚本通过在后台与服务器进行少量数据交换的技术,可以在不重新加载整个网页的情况下更新网页的特定部分. 性能特点: 当您单击网页中的一个选项时,大多数网站的URL不会更改. b. 该网页未完全加载,仅部分加载了数据并进行了更改. 验证方法: 单击该操作后,URL输入栏将不会在浏览器的加载状态或转弯状态下显示. 观察该网页,我们发现单击“加载更多内容” 5次后,页面将加载到底部,总共显示100条文章. 因此,我们将整个“循环旋转”步骤设置为执行5次. 选择“循环翻页”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,将循环数设置为“ 5”,单击“确定”,微信公众号文章正文采集步骤6第3步: 创建一个列表循环并提取数据HYPERLINK“ / article / javascript :;”移动鼠标,然后选择页面上的第一个文章链接.

  系统将自动识别相似的链接. 在操作提示框中,选择“全选”微信公众号文章正文采集步骤7,选择“单击每个链接”,微信公众号文章正文采集步骤8,系统将自动进入文章明细页面. 单击要采集的字段(在此处单击文章标题),然后在操作提示框中选择“采集此元素的文本”. 文章发布时间和文章来源字段的采集方法与微信公众号文章正文采集步骤9相同. 接下来,将采集文章正文. 首先点击文章正文的第一段,系统会自动识别页面中的相似元素,选择“全选”微信公众号文章正文采集步骤105),可以看到所有正文段落均被选中并转绿色. 选择“采集以下元素文本”微信公众号文章正文采集步骤11注意: 在字段表中,您可以自定义字段以修改微信公众号文章正文采集步骤126)上述操作之后,正文将全部采集的(默认是文本的每个段落都是一个单元格). 一般来说,我们希望将采集的文本合并到同一单元格中. 单击“自定义数据字段”按钮,选择“自定义数据合并方法”,选中“多次提取并将同一字段合并到一行,即,追加到同一字段,例如文本页面合并”,然后单击“确定”,微信公众号文章正文采集步骤13,“自定义数据字段”按钮选择“自定义数据合并方法”,微信公众号文章正文采集步骤14,微信公众号文章正文采集步骤如图15所示. : 修改Xpath1)选择整个“循环步骤”,打开“高级选项”,可以看到由彩云生成的默认值是固定元素列表,该列表定位了前20条微信公众号文章正文采集步骤162的链接)在Firefox中打开采集网页并观察源代码.

  我们发现通过此Xpath: // DIV [@ class ='main-left'] / DIV [3] / UL / LI / DIV [2] / H3 [1] / A,在页面All中需要微信公众号文章正文采集步骤中有100条微信公众号文章,在步骤173)将修改后的Xpath复制并粘贴到优采云中显示的位置,然后单击“确定”,微信公众号文章正文采集步骤18步骤5 : 我们将继续观察流程图结构的修改. 5次单击“加载更多内容”后,此页面将加载所有100条文章. 因此,我们的配置规则的思想是首先建立一个翻页周期,加载全部100条文章,然后创建一个周期列表并提取数据1)选择整个``循环''步骤并将其拖出``循环''页面翻页”步骤. 如果您不执行此操作,将会有很多重复的数据. 微信公众号文章正文采集步骤19拖动完成后,如下图所示,微信公众号文章正文采集步骤20步骤6: 数据采集和导出1)单击左上角单击角上的“保存”,然后点击“开始采集”,选择“开始本地采集”,微信公众号文本采集步骤21. 采集完成后,弹出提示,选择“导出数据”,选择“适当的导出方式”,将采集的数据导出到微信公众号文章正文采集步骤223)这里我们选择excel作为导出格式. 数据导出后,如下图所示,微信公众号文章正文采集步骤23如上图所示,部分文章的正文未采集.

  这是因为系统自动生成了文章正文的循环列表的Xpath: // [@ id =“ js_content”] / P,因此无法找到本文的正文. 将Xpath修改为: // [@@ =“ =” js_content“] // P,所有文章正文都可以位于微信公众号文章正文采集步骤23微信公众号文章正文采集步骤24说明: 本文的方法是仅适合采集搜狗微信文章正文内容. 无法在文本中采集图片. 如果需要采集图片,则需要在此过程中添加判断条件. 相关集合教程: 京东商品信息集合豆瓣电影简短评论集合58全市信息集合优采云-一个由70万用户选择的网络数据采集器. 1.操作简单,任何人都可以使用: 不需要技术背景,可以通过浏览Internet进行采集. 完全可视化该过程,单击鼠标以完成操作,您可以在2分钟内快速上手. 2.强大的功能,可以在任何网站上采集: 单击,登录,翻页,识别验证码,瀑布流,Ajax脚本异步加载数据页,所有这些都可以通过简单的设置进行采集. 3.云采集,也可以关闭. 配置采集任务后,可以将其关闭,并可以在云中执行该任务. 庞大的云采集集群不间断运行24 * 7,因此无需担心IP被阻塞和网络中断. 4.免费功能+增值服务,可以按需选择. 免费版具有所有功能,可以满足用户的基本采集需求. 同时,建立了一些增值服务(例如私有云)以满足高端付费企业用户的需求.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线