如何在搜狗微信公众号上采集热门文章. docx 18页
优采云 发布时间: 2020-08-06 00:00优采云·云采集服务平台优采云·云采集服务平台搜狗微信公众号如何采集热门文章本文介绍如何使用优采云来采集搜狗微信文章(以热门文章为例). 规则下载: 使用功能点: 寻呼列表信息采集HYPERLINK“ /tutorial/fylb-70.aspx?t=1” /tutorial/fylb-70.aspx?t=1Xpath HYPERLINK“ / search?query = XPath” / search? query = XPathAJAX单击并翻页HYPERLINK“ /tutorial/ajaxdjfy_7.aspx?t=1” /tutorial/ajaxdjfy_7.aspx?t=1相关的采集教程: 天猫商品信息采集百度搜索结果采集步骤1: 创建采集任务1)进入主界面,选择“自定义模式”如何在搜狗微信公众号上采集热门文章图12)复制要采集的URL到网站输入框中,单击“保存URL”如何在搜狗微信上采集热门文章官方帐户图2 HYPERLINK“ / article / javascript :;”第2步: 创建翻页循环. 在页面的右上角,打开“流程”以显示“流程设计器”和“自定义当前操作”的两个部分. 打开网页后,默认显示“热门”文章.
下拉页面,找到并单击“加载更多内容”按钮,在操作提示框中选择“更多操作”搜狗微信公众号热门文章如何采集图2选择“循环单击单个元素”创建一个页面翻阅周期如何在搜狗微信公众号上采集热门文章图3由于此页面涉及Ajax技术,因此我们需要设置一些高级选项. 选择“单击元素”步骤,打开“高级选项”,选中“ Ajax加载数据”,将时间设置为“ 2秒”. 如何在搜狗微信公众号上采集热门文章图4注意: AJAX表示延迟加载和异步更新. 这种脚本技术通过在后台与服务器进行少量数据交换,可以更新网页的特定部分,而无需重新加载整个网页. 性能特点: 当您单击网页中的一个选项时,大多数网站的URL不会更改. b. 该网页未完全加载,仅部分加载了数据并进行了更改. 验证方法: 单击该操作后,URL输入栏将不会在浏览器的加载状态或转弯状态下显示. 观察该网页,我们发现单击“加载更多内容” 5次后,页面将加载到底部,总共显示100条文章. 因此,我们将整个“循环旋转”步骤设置为执行5次. 选择“循环翻页”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,将循环数设置为等于“ 5次”,然后单击“确定”. 搜狗微信公众号图5步骤3: 创建列表循环并提取数据HYPERLINK“ / article / javascript :;” 1)移动鼠标以选择页面上第一篇文章的框.
系统将识别此块中的子元素. 在操作提示框中,选择“选择子元素”. 如何在搜狗微信公众号上采集热门文章. 图62)继续在页面上选择第二篇文章的块,系统将第二篇文章中的子元素会被自动选择,页面上的其他10组相似元素也会被识别. 在操作提示框中,选择“全选”. 如何在搜狗微信公众号上采集热门文章. 图73)可以看到,页面上文章区域中的所有元素均已选中,并变为绿色. 在右侧的操作提示框中,将显示一个字段预览表. 将鼠标移到表格的顶部,然后单击垃圾箱图标以删除不必要的字段. 字段选择完成后,选择“采集以下数据”. 如何在搜狗微信公众号上采集热门文章. 图84)我们还希望采集每篇文章的URL,因此需要提取一个字段. 单击第一篇文章的链接,系统将自动在页面上选择一组文章链接. 在右侧的操作提示框中,选择“全选”如何在搜狗微信公众号上采集热门文章图95)选择“采集以下链接地址”如何在搜狗微信公众号上采集热门文章图106)选择后在字段中,选择相应的字段,您可以自定义字段的命名. 图11第4步: 修改Xpath让我们继续观察. 5次单击“加载更多内容”后,此页面将加载所有100条文章. 因此,我们的配置规则的思想是首先建立一个翻页周期,加载全部100条文章,然后创建一个周期列表并提取数据1)选择整个``循环''步骤并将其拖出``循环''翻页”步骤.
如果不执行此操作,将有很多重复的数据. 如何在搜狗微信公众号上采集热门文章图12拖动完成后,如下图所示,如何在搜狗微信公众号上采集热门文章图13在“列表循环”中“在此步骤中,循环的100篇文章列表. 选择整个“循环步骤”,打开“高级选项”,元素列表中的Xpath不会被固定: // BODY [@ id ='loginWrap'] / DIV [4] / DIV [1] / DIV [3] / UL [1] / LI,将其复制并粘贴到Firefox浏览器中的相应位置. 如何在搜狗微信公众号上采集热门文章图14 Xpath: 是一种路径查询语言,简而言之,它使用路径表达式来查找我们需要定位的数据,Xpath用于沿XML路径查找数据,但是Ucai云采集器中有一套针对HTML的Xpath引擎,因此您可以直接使用XPATH可以准确地在网页中查找和定位数据3)在Firefox浏览器中,我们通过以下Xpath发现: // BODY [@ id ='loginWrap'] / DIV [4] / DIV [1] / DIV [3] / UL [1] / LI,该页面上的页面有20篇文章,搜狗微信公众号,如何采集热门文章图154)将Xpath修改为: // BODY [@ id ='loginWrap'] / DIV / DIV [1] / DIV [3] / UL / LI,我们发现该页面上要采集的所有文章都位于搜狗微信公众号上. 热门文章如何采集图16中所示的Xpath: // BODY [@ id ='loginWrap'] / DIV / DIV [1] / DIV [3] / UL / LI,复制并粘贴到图片中所示的位置,然后单击“确定”,搜狗微信公众号热门文章如何采集图176)单击左上角的“保存并开始”,选择“开始本地采集”如何在搜狗微信公众号上采集热门文章”图18步骤5: 数据采集和导出采集完成后,将弹出提示,选择“导出数据”,选择“适当的导出方法”,并采集搜狗微信文章数据导出搜狗微信官方账号如何搜集热门文章图19在这里我们选择excel作为导出格式,数据导出后,下图显示了如何采集搜狗微信公众号热门文章: 图20优采云-70万用户选择的Web数据采集器.
1. 该操作很简单,任何人都可以使用: 不需要技术背景,并且可以通过浏览Internet进行采集. 完全可视化该过程,单击鼠标以完成操作,您可以在2分钟内快速上手. 2.强大的功能,可以在任何网站上采集: 单击,登录,翻页,识别验证码,瀑布流,Ajax脚本异步加载数据页,所有这些都可以通过简单的设置进行采集. 3.云采集,也可以关闭. 配置采集任务后,可以将其关闭,并可以在云中执行该任务. 庞大的云采集集群不间断运行24 * 7,因此无需担心IP被阻塞和网络中断. 4.免费功能+增值服务,可以按需选择. 免费版具有所有功能,可以满足用户的基本采集需求. 同时,建立了一些增值服务(例如私有云)以满足高端付费企业用户的需求.