可采集文章(搜狗微信文章采集数据说明:XpathAJAX点击和翻页列表 )

优采云 发布时间: 2021-10-09 18:33

  可采集文章(搜狗微信文章采集数据说明:XpathAJAX点击和翻页列表

)

  本文介绍如何使用优采云采集搜狗微信文章(以流行的文章为例)采集网站:

  搜狗微信搜索:搜狗微信搜索是搜狗于2014年6月9日推出的微信公众平台。“微信搜索”支持搜索微信公众号和微信文章,您可以通过关键词@搜索相关微信公众号>,或微信公众号推送的文章。不仅是PC端,搜狗手机搜索客户端也会推荐相关的微信公众号。

  搜狗微信文章采集 资料说明:本文整理了搜狗微信-热门内容的所有文章信息采集。本文仅以“搜狗微信-所有文章信息采集热门内容”为例。实际操作过程中,您可以根据自己的需要更改搜狗微信的其他内容进行数据执行。采集。

  搜狗微信文章采集详细采集 字段说明:微信文章标题、微信文章指南、微信文章出处、微信文章@ > 发布时间,微信文章地址。

  使用功能点:

  Xpath

  AJAX点击和翻页

  分页列表信息采集

  第一步:创建采集任务

  1)进入主界面,选择“自定义模式”

  

  2)将采集的网址复制粘贴到网站的输入框中,点击“保存网址”

  

  第 2 步:创建翻页循环

  1)打开右上角的“进程”。打开网页后,默认显示“热门”文章。向下滚动页面,找到并点击“加载更多内容”按钮,在操作提示框中选择“更多操作”

  

  2)选择“循环点击单个元素”创建翻页循环

  

  由于这个网页涉及到Ajax技术,我们需要设置一些高级选项。选择“点击元素”这一步,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”

  

  注:AJAX 是一种延迟加载和异步更新的脚本技术。通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某个部分。

  性能特点: a.当你点击网页中的一个选项时,网站的大部分网址不会改变;湾 网页没有完全加载,只是部分加载了数据,这会发生变化

  验证方法:点击操作后,在浏览器中,URL输入栏不会出现在加载状态或转动状态

  观察网页,我们发现点击“加载更多内容”5次后,页面加载到底部,一共显示了100个文章。因此,我们将整个“循环翻页”步骤设置为执行 5 次。选择“循环翻页”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”

  

  第 3 步:创建列表循环并提取数据

  1)移动鼠标选中页面第一篇文章文章的区块。系统会识别该块中的子元素,在操作提示框中选择“选择子元素”

  

  2) 继续选择页面第二篇文章中的区块,系统会自动选择第二篇文章中的子元素,并识别出其他10组相似元素这一页。在操作提示框中,选择“全选”

  

  3) 我们可以看到页面上文章块中的所有元素都被选中并变成了绿色。在右侧的操作提示框中,会出现一个字段预览表。将鼠标移动到表头并单击垃圾桶图标以删除不需要的字段。字段选择完成后,选择“采集以下数据”

  

  4) 我们还要采集 每个文章 URL,所以我们需要提取一个字段。点击第一篇文章文章的链接,系统会自动选择页面上的一组文章链接。在右侧的操作提示框中,选择“全选”

  

  5)选择“采集以下链接地址”

  关键词0@>

  关键词1@> 字段选择完成后,选择对应的字段,自定义字段的命名

  关键词2@>

  第 4 步:修改 Xpath

  我们继续观察,在点击“加载更多内容”5 次后,该页面加载了全部 100 个文章。所以,我们配置规则的思路是先建立一个翻页循环,加载所有100个文章,然后创建一个循环列表提取数据

  1)选择整个“循环”步骤并将其拖出“循环翻转”步骤。如果不这样做,会出现大量重复数据

  关键词4@>

  拖动完成后,如下图

  关键词5@>

  2)在“列表循环”步骤中,我们创建了一个100个文章的循环列表。选择整个“循环步骤”,打开“高级选项”,元素列表中的这个Xpath不会被固定://BODY[@id='loginWrap']/DIV[4]/DIV[1]/DIV[ 3] /UL[1]/LI,复制粘贴到火狐浏览器对应位置

  关键词7@>

  Xpath:是一种路径查询语言,简而言之就是使用路径表达式来查找我们需要的数据位置

  Xpath是用来在XML中沿路径查找数据的,但是有一套针对HTML的Xpath引擎,可以直接使用XPATH来准确地查找和定位网页中的数据。

  3)在火狐浏览器中,我们通过这个Xpath发现: //BODY[@id='loginWrap']/DIV[4]/DIV[1]/DIV[3]/UL[1] /LI , 20篇文章位于页面文章

  关键词9@>

  4) 修改Xpath为://BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI,我们找到了所有需要采集的页面文章 都位于

  

  5) 复制修改后的Xpath://BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI,复制粘贴到图中位置,然后点击“确定”

  

  关键词1@>点击左上角“保存并开始”,选择“这次开始采集”

  

  第五步:数据采集并导出

  1)采集 完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好搜狗微信文章的数据

  

  2)这里我们选择excel作为导出格式,导出数据如下图

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线