内容采集器(本文介绍使用麒麟采集器知乎回答内容的方法采集数据说明)
优采云 发布时间: 2021-10-02 08:15内容采集器(本文介绍使用麒麟采集器知乎回答内容的方法采集数据说明)
本文介绍如何使用麒麟采集器知乎回答内容
采集网站:
使用功能点:
分页列表信息采集
AJAX点击和翻页教程
知乎:知乎是一个真正的在线问答社区,拥有友好理性的社区氛围,连接各行各业的精英。用户相互分享专业知识、经验和见解,为中国互联网提供源源不断的优质信息。
知乎回答内容采集资料说明:本文以知乎回答内容采集进行。本文仅以“知乎回复内容采集”为例。实际操作中,您可以根据自己的需要,将知乎的其他内容替换为data采集。
知乎回答内容采集字段详细说明:知乎问题标题、知乎回答ID、知乎签名、知乎回答批准号、 知乎回复评论数,知乎回复内容。
第一步:创建采集任务
1)进入主界面,选择“自定义模式”
2)将采集的网址复制粘贴到网站的输入框中,点击“保存网址”
第 2 步:创建翻页循环
1)在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两个部分。点击题目,在操作提示框中选择“采集元素的文本”
2) 页面下拉至底部,点击“查看更多答案”按钮,在右侧操作提示框中选择“更多操作”
选择“循环单击单个按钮”
我们发现系统自动打开了采集的网页,进入了知乎问答区。自动下拉加载后,此页面到达底部并出现“查看更多答案”按钮。因此,我们需要等待网页完全加载后再进行翻页操作,即需要等待设置执行完毕
选择整个“循环翻页”步骤,打开高级选项,设置执行前等待为“3秒”,然后点击“确定”
“点击元素”操作也是一样,执行前的等待时间设置为“3秒”。同时,“点击元素”这一步也涉及到Ajax加载技术,需要勾选“Ajax加载数据”并将时间设置为“2秒”
注:AJAX 是一种延迟加载和异步更新的脚本技术。通过后台与服务器的少量数据交换,可以更新网页的某一部分,而无需重新加载整个网页。
性能特点: a.当你点击网页中的一个选项时,网站的大部分网址不会改变;湾 网页未完全加载,但仅部分加载了数据,这些数据会发生变化。
验证方法:点击操作后,URL输入栏在浏览器中不会出现加载状态或转动状态。
第 3 步:提取 知乎 答案
1)移动鼠标选择页面上的第一个答案块。系统会识别该块中的子元素,在操作提示框中选择“选择子元素”
2)系统会识别页面上的其他类似元素。在操作提示框中,选择“全选”
3)选择“采集以下数据”
4)选择该字段并单击垃圾桶图标将其删除
5)选择对应的字段,可以自定义字段的命名
第四步:调整流程图结构
回顾采集的过程,我们配置规则的思路是先点击“查看更多答案”按钮创建翻页循环,加载所有答案,然后创建循环列表来提取数据。
1)选择整个“循环”步骤并将其拖出“循环翻转”步骤。如果不这样做,会出现大量重复数据
拖动完成后,如下图
2)点击左上角“保存并启动”,选择“启动本地采集”
第五步:数据采集并导出
1)采集 完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出
2)这里我们选择excel作为导出格式,导出数据如下图