内容采集器(本文介绍使用麒麟采集器知乎回答内容的方法采集数据说明)

优采云发布时间: 2021-10-02 08:15

　　本文介绍如何使用麒麟采集器知乎回答内容

　　采集网站：

　　使用功能点：

　　分页列表信息采集

　　AJAX点击和翻页教程

　　知乎：知乎是一个真正的在线问答社区，拥有友好理性的社区氛围，连接各行各业的精英。用户相互分享专业知识、经验和见解，为中国互联网提供源源不断的优质信息。

　　知乎回答内容采集资料说明：本文以知乎回答内容采集进行。本文仅以“知乎回复内容采集”为例。实际操作中，您可以根据自己的需要，将知乎的其他内容替换为data采集。

　　知乎回答内容采集字段详细说明：知乎问题标题、知乎回答ID、知乎签名、知乎回答批准号、知乎回复评论数，知乎回复内容。

　　第一步：创建采集任务

　　1）进入主界面，选择“自定义模式”

　　2）将采集的网址复制粘贴到网站的输入框中，点击“保存网址”

　　第 2 步：创建翻页循环

　　1）在页面右上角，打开“流程”，显示“流程设计器”和“自定义当前操作”两个部分。点击题目，在操作提示框中选择“采集元素的文本”

　　2）页面下拉至底部，点击“查看更多答案”按钮，在右侧操作提示框中选择“更多操作”

　　选择“循环单击单个按钮”

　　我们发现系统自动打开了采集的网页，进入了知乎问答区。自动下拉加载后，此页面到达底部并出现“查看更多答案”按钮。因此，我们需要等待网页完全加载后再进行翻页操作，即需要等待设置执行完毕

　　选择整个“循环翻页”步骤，打开高级选项，设置执行前等待为“3秒”，然后点击“确定”

　　“点击元素”操作也是一样，执行前的等待时间设置为“3秒”。同时，“点击元素”这一步也涉及到Ajax加载技术，需要勾选“Ajax加载数据”并将时间设置为“2秒”

　　注：AJAX 是一种延迟加载和异步更新的脚本技术。通过后台与服务器的少量数据交换，可以更新网页的某一部分，而无需重新加载整个网页。

　　性能特点： a．当你点击网页中的一个选项时，网站的大部分网址不会改变；湾网页未完全加载，但仅部分加载了数据，这些数据会发生变化。

　　验证方法：点击操作后，URL输入栏在浏览器中不会出现加载状态或转动状态。

　　第 3 步：提取知乎答案

　　1）移动鼠标选择页面上的第一个答案块。系统会识别该块中的子元素，在操作提示框中选择“选择子元素”

　　2）系统会识别页面上的其他类似元素。在操作提示框中，选择“全选”

　　3）选择“采集以下数据”

　　4）选择该字段并单击垃圾桶图标将其删除

　　5）选择对应的字段，可以自定义字段的命名

　　第四步：调整流程图结构

　　回顾采集的过程，我们配置规则的思路是先点击“查看更多答案”按钮创建翻页循环，加载所有答案，然后创建循环列表来提取数据。

　　1）选择整个“循环”步骤并将其拖出“循环翻转”步骤。如果不这样做，会出现大量重复数据

　　拖动完成后，如下图

　　2）点击左上角“保存并启动”，选择“启动本地采集”

　　第五步：数据采集并导出

　　1）采集完成后会弹出提示，选择“导出数据”，选择“合适的导出方式”，将采集好的数据导出

　　2）这里我们选择excel作为导出格式，导出数据如下图

0

2021-10-02

内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集器(本文介绍使用麒麟采集器知乎回答内容的方法采集数据说明)

0 个评论

发起人

AI时代内容工厂

内容采集器(本文介绍使用麒麟采集器知乎回答内容的方法采集数据说明)

0 个评论

发起人

相关问题