分享文章:分享一篇采集知乎问题和回答的文章

优采云 发布时间: 2022-11-27 09:22

  分享文章:分享一篇采集知乎问题和回答的文章

  捕捉场景

  知道首页,输入关键词搜索,得到相关问题列表。然后,点击问题链接进入详情页,采集

该问题下的多个答案数据。

  集合字段

  问题名称、问题描述、评论数、问题网站答案ID、答案ID描述、答案ID头像、答案正文等字段。

  将鼠标放在图片上,右击,选择在新标签页打开图片查看高清大图

  下面的其他图片也一样

  采集结果

  采集结果可以导出为Excel、CSV、HTML等多种格式,如数据库。Excel范例:

  采集步骤

  第一步:打开网页

  第二步,使用cookies登录知乎

  Step 3. 批量输入多个关键词

  第 4 步:向下滚动页面以加载更多问题列表

  第五步,创建循环——点击元素,进入每道题的详细页面

  第 6 步:提取与问题相关的字段

  第七步。展开所有答案,滚动以加载更多答案

  第 8 步:创建循环列表并从所有答案列表中采集

数据

  第九步,开始采集

  具体步骤如下:

  第一步打开网页

  在首页【输入框】输入目标网址,点击【开始采集

】,八达通会自动打开网页。

  特别提示:

  一个。打开网页后,如果开始自动识别,请点击不自动识别或取消识别关闭。因为这篇文章不适合做自动识别。

  b. 【自动识别】适用于网页自动识别列表、滚动、翻页。识别成功后,可以直接开始采集获取数据。点击查看自动识别教程

  第二步,使用cookies登录知乎

  搜集知乎数据,首先需要登录。关键词必须先登录才能搜到搜到的问题的数据。因此,我们需要通过以下步骤登录八达通:

  1.打开浏览器模式

  点击

  按钮打开浏览器模式。输入账号密码,浏览器方式登录。

  2、使用cookies登录知乎

  进入并打开页面1设置界面,勾选指定cookie的使用],点击获取当前页面cookie]并保存。这样,登录后获取cookie,启动时直接以登录状态打开网页。

  特别提示:

  一个。什么是浏览器模式?在浏览器模式下,我们可以在不生成流程步骤的情况下点击操作页面。如果需要编辑流程步骤,则需要关闭浏览器模式。

  b. 什么是 cookie?一般来说,cookies是存储在用户电脑上的小文件,用于保存一些网站的用户数据,其作用是让浏览器为用户定制内容。比如用户第一次访问一个网站,输入账号密码登录,浏览器会询问你是否需要记住账号密码。选择是时,浏览器将将这些帐户密码信息存储在用户的计算机上。下次访问本站时无需再次输入账户密码。点击查看处理需要登录的页面(包括登录时的验证码)

  C。如何判断是否拿到cookie?拿到饼干后

  第三步:批量输入多个关键词

  批量输入多个关键字 输入多个关键字。

  1.创建一个文本列表循环

  2.创建输入文本并与文本列表链接,输入多个关键词

  

" />

  3. 点击搜索

  4.创建文本列表循环

  在打开页面步骤之后,添加一个循环。

  进入循环设置页面。选择如何遍历文本列表

  按钮,输入我们准备好的关键词(可同时输入多个关键词,一次一行),然后保存。

  特别提示:

  一个。示例中输入的关键词是大数据和机器学习,可以根据自己的需要进行替换。

  b. 一次最多输入2W个关键词。先准备一个收录

多个关键词的文档,然后复制粘贴到八达通中。

  2.创建输入文本并与文本列表链接,输入多个关键词

  ① 创建输入文本

  关闭浏览器模式,选中页面搜索框,在*敏*感*词*操作提示框中选择输入文字,点击确定。

  ② 与文本列表的循环链接

  将输入文本步骤拖到循环中。然后进入输入文本设置页面,勾选Fill input box with text from current loop并保存。

  3. 点击搜索

  在循环中选择一个关键字,点击Enter Text,可以在网页的文本框中看到关键字成功输入。

  然后选择搜索按钮,在操作提示框中点击按钮,出现关键词搜索结果列表页面。

  第 4 步:向下滚动页面以加载更多问题列表

  点击搜索按钮后,向下滚动页面以加载更多问题列表并滚动浏览八达通。

  进入【点击元素】设置页面,点击【页面加载】,设置【页面加载后向下滚动】,滚动方式为【直接滚动到底部】,滚动次数为2次,间隔为1秒并保存。

  特别提示:

  一个。请根据采集要求和网页加载情况在设置中设置滚动次数和时间间隔,不要一成不变。请点击查看处理滚动加载数据的网页教程

  第五步,创建循环——点击元素,进入每道题的详细页面

  1.创建【循环-点击元素,进入各题详情页

  循环每个问题链接进入问题详情页面:

  ① 选择页面第一个问题链接(注意是问题链接)

  ② 在*敏*感*词*操作提示框中点击全选

  ③ 点击循环点击各链接进入第一题详情页

  特别提示:

  一个。继续以上三个连续步骤,循环点击元素]完成创建。[Circulation] 中的项目对应页面上的所有问题链接。开始采集后,优采云

会依次循环点击每个问题链接,进入问题详情页面采集每个问题下的答案数据。

  b. 为什么可以通过以上三个步骤建立一个循环——点击元素?单击查看详细集并单击多个链接后的详细页面数据教程。

  2.修改【循环-点击元素】Xpath

  为了准确定位所有问题链接,需要修改loop-click元素的XPath。

  特别提示:

  一个。搜索关键词后,搜索结果有各种数据:主题、栏目、直播、电子书、文章和问题。本文仅采集

问题数据,不考虑其他类别。

  b. 默认生成的循环方式是固定元素列表循环,无法准确定位所有问题链接。需要手动修改XPath才能定位到所有问题链接。这里需要一些 XPath 知识。单击以查看带示例的 XPath 学习教程。

  第 6 步:提取与问题相关的字段

  1.展开问题描述,提取问题名称和问题描述

  如果问题描述太长,将被折叠。选择Show All按钮,在弹出的动作提示框中选择Click this element,展开所有问题描述。

  如果不需要采集

问题描述,可以跳过这一步。

  2.提取问题名称并描述问题

  

" />

  选中页面上的文本,然后在操作提示框中点击采集

元素文本。

  可以像这样提取文本字段。比如我们提取问题名称、问题描述等字段。

  特别提示:

  一个。文本、图片、视频、源代码是不同的数据形式,在操作提示框中选择的提取方式略有不同。文字一般为采集

元素文字,图片一般为采集

图片地址,请点击查看不同数据类型(文字、图片、链接、源码等)。

  3.编辑字段

  设置界面时,可以删除多余的字段,修改字段名,移动字段顺序,增加字段等。

  单击 并选择添加当前站点信息 - 采集

当前问题的链接。

  第七步。展开所有答案,滚动以加载更多答案

  1.展开答案

  当一个问题的答案过多时,默认显示三个答案,其他答案会收起。选择View All Information X按钮,在操作提示框中,选择Click this link to expand the answer。

  如果您不需要采集

所有答案,则可以跳过此步骤。

  2. 滚动加载更多答案

  点击View All X an an answer后,向下滚动页面会加载更多答案,并在Octopus中设置滚动。

  进入【点击元素3】的设置页面,取消勾选【在新标签页打开】,然后点击【页面加载】,设置【页面加载后向下滚动】,滚动方式为【直接滚动到底部,滚动次数,【每间隔】2秒,设置后保存。

  特别提示:

  一个。为什么不检查一下新标签?因为View All Information X按钮是Ajax点击勾选新标签页,所以会出现采集问题。Ajax网页采集方法请点击查看

  b. 请根据采集要求和网页加载情况在设置中设置滚动次数和时间间隔,不要一成不变。请点击查看处理滚动加载数据的网页教程

  第 8 步:创建循环列表并从所有答案列表中采集

数据

  1.创建循环列表

  通过以下连续3个步骤,采集

所有答案列表中的数据:

  ① 选择页面上的答案列表之一(注意选择整个列表,包括所有必填字段)

  ② 在页面中选择第二题列表

  ③ 在*敏*感*词*操作提示框中,选择采集以下元素文字

  特别提示:

  一个。继续以上三个连续的步骤,循环创建并完成提取数据。循环中的项目对应于页面上所有问题的列表。但这会将整个列表提取为一个字段。如果您需要单独提取字段,请查看以下内容。

  b. 为什么可以通过以上三个步骤建立一个循环——提取数据?单击以查看数据采集教程的详细列表。

  C。【循环列表】默认只有5个问题列表。在 Octopus 中滚动页面后,问题列表会增加。

  2.提取问题列表中的字段

  点击当前选中页面中的文本,在动作提示框中采集

元素文本。

  可以像这样提取文本字段。在示例中,我们提取了答案ID、答案ID描述、答案ID多个字段,如头像、答案文本等。

  特别提示:

  一个。文本、图片、视频、源代码是不同的数据形式,在操作提示框中选择的提取方式略有不同。文字一般为采集

元素文字,图片一般为采集

图片地址,请点击查看不同数据类型(文字、图片、链接、源码等)。

  3.编辑字段

  设置页面时,可以删除多余字段、修改字段名称、移动字段顺序等。

  第九步,开始采集

  1. 点击【采集

】和【开始本地采集

】。八达通自动开始采集

数据。

  特别提示:

  一个。【本地采集】由您自己的电脑采集,【云端采集】由八达通提供的云端服务器采集。点击查看本地采集和云采集的详细说明。

  2. 采集完成后,选择合适的导出方式导出数据。支持导出Excel、CSV、HTML、数据库等,这里导出Excel。

  原文链接:

  分享文章:wordpress前台如何删除文章

  用一个php函数实现直接在网站前台删除文章的功能。估计需要这个功能的人很少;

  由于在本地建有采集

站,您阅读的文章可以一键删除,提高了工作效果;

  在single.php文章内容页自定义位置放置如下函数,这样我们在前台浏览器点击文章删除就可以快速达到我们想要的目的;

  登录复制

  更多wordpress相关技术文章,请访问wordpress教程专栏学习!

  以上就是wordpress前台如何删除文章的详细内容。更多内容请关注php中文网其他相关文章!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线