优采云自动打开网页的数据步骤和教程步骤详解!

优采云 发布时间: 2021-08-24 23:11

  优采云自动打开网页的数据步骤和教程步骤详解!

  步骤八、建立一个【循环列表】,采集答案列表中的所有数据

  步骤九、Start采集

  具体步骤如下:

  步骤一、打开网页

  在首页【输入框】输入目标网址/,点击【开始采集】,优采云会自动打开网页。

  

  特别说明:

  一个。打开网页后,如果开始启动【自动识别】,请点击【不再自动识别】或【取消识别】将其关闭。因为本文不适合使用【自动识别】。

  B. 【自动识别】适用于自动识别网页列表、滚动、翻页。识别成功后可以直接启动采集获取数据。详情请点击查看【自动识别】教程

  步骤二、使用Cookie知乎登录

  到采集知乎data,首先需要登录,如果不先登录,则无法搜索关键词、采集搜索后得到的问题相关数据。因此,我们需要先登录优采云,通过以下步骤:

  1、打开浏览器模式

  点击

  

  按钮打开浏览器模式。在浏览器模式下,输入账号密码并登录。

  2、使用Cookie知乎登录

  进入【打开网页1】设置界面,勾选【使用指定cookies】,点击【获取当前页面cookies】并保存。这样就获取到了登录后的cookie,启动时直接以登录状态打开网页。

  

  特别说明:

  一个。什么是浏览器模式?在浏览器模式下,我们可以像在浏览器中一样点击和操作网页,无需生成流程步骤。如果需要编辑流程步骤,则需要关闭浏览器模式。关闭状态:

  

  ;打开状态:

  

  B.什么是饼干?通俗的说,cookies是存储在用户电脑上的小文件,用于保存一些网站的用户数据,其作用是让浏览器为用户定制内容。例如:用户第一次访问网站,输入账号密码登录,浏览器会询问是否需要【记住账号密码】。选择【是】后,浏览器会将这些账号和密码信息保存在用户的电脑上。下次访问此网站时,无需再次输入帐户密码。点击查看详情。处理需要登录的网页(包括登录时的验证码)

  c.如何判断是否获取了cookie?拿到cookie后

  

  将成为

  

  ,点击

  

  ,可以查看具体的cookie内容。

  步骤三、批量输入多个关键词

  通过以下步骤,批量输入多个关键词。

  1、Create [文本列表循环],存储多个关键词

  2、创建[输入文本]并与[文本列表循环]链接输入多个关键词

  3、点击搜索

  4、Create [文本列表循环],存储多个关键词

  在[打开网页]步骤后,添加一个[循环]。

  进入【周期】设置页面。选择循环方式为【文本列表】,点击

  

  按钮,输入我们准备好的关键字(可以同时输入多个关键字,每行一个)并保存。

  

  特别说明:

  一个。例子中输入的关键词是【大数据】和【机器学习】,可以根据自己的需要替换。

  B.一次最多输入 2W 个关键字。可以先准备一个收录多个关键字的文档,然后复制粘贴到优采云中。

  2、创建【输入文本】并与【文本列表循环】链接输入多个关键词

  ① 创建[输入文本]

  关闭浏览器模式,选择页面上的搜索框,在*敏*感*词*的操作提示框中选择【输入文字】,点击【确定】。

  ②【输入文字】与【文字列表循环】联动

  将[输入文本]步骤拖入[循环]。然后进入【输入文本】设置页面,勾选【使用当前循环中的文本填充输入框】并保存。

  

  3、点击搜索

  在【Circular】中选择一个关键词,然后点击【Enter Text】,可以看到关键词成功输入到网页的文本框中。

  然后选择【搜索】按钮,在操作提示框中点击【点击此按钮】,就会出现关键词的搜索结果列表页面。

  

  步骤四、向下滚动页面以加载更多问题列表

  点击搜索按钮后,向下滚动页面以加载更多问题列表,需要在优采云中滚动设置。

  进入【点击元素】设置页面,点击【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【直接滚动到底部】,【滚动次数】为2次,【每次间隔] 1 秒并保存。

  

  特别说明:

  一个。设置中的滚动次数和时间间隔,请根据采集要求和网页加载条件进行设置,它们不是静态的,请点击查看处理滚动加载数据的网页教程

  步骤五、建立【loop-click元素】,进入各题详情页

  1、Establish [loop-click element],进入各题详情页

  通过以下3个步骤,反复点击每个问题链接,进入问题详情页面:

  ①选择页面第一个问题链接(注意问题链接)

  ②在*敏*感*词*的操作提示框中,点击【全选】

  ③点击【循环点击各链接】进入第一题详情页

  

  特别说明:

  一个。经过以上3个连续的步骤,就完成了【循环点击元素】的创建。 【循环】中的项目对应页面上所有的问题链接。启动采集后,优采云会依次点击循环中的每个问题链接,进入问题详情页面,使用采集回答每个问题下的数据。

  B.为什么我们可以通过以上3个步骤来设置【循环点击元素】?详情请点击查看采集点击多个链接进入详情页数据教程。

  2、Modify [循环点击元素] Xpath

  为了准确定位所有问题链接,需要修改【Cycle-Click Element】的XPath。

  进入【循环列表】设置页面,选择循环方式为【不固定元素列表循环】,然后填写XPath://div[@data-za-detail-view-path-module='AnswerItem ']//a 并保存。

  再次执行【点击元素】步骤,进入问题详情页面。

  

  特别说明:

  一个。搜索关键词后,搜索结果中有多种类型的数据:话题、专栏、直播、电子书、文章、问题。本文仅采集题数据,其他分类暂不考虑。

  B.默认生成的loop方法是【Fixed Element List Loop】,无法准确定位所有问题链接,需要我们手动修改XPath来定位所有问题链接。这里需要一些 XPath 知识。点击查看 XPath 学习和示例教程。

  步骤六、提取问题相关字段

  1、展开问题描述,提取问题名称和问题描述

  问题描述太长,会被折叠。选择【全部显示】按钮,在弹出的操作提示框中选择【点击该元素】展开所有问题描述。

  如果不需要采集问题描述,可以跳过这一步。

  2、提取问题名称和问题描述

  选择页面上的文字,然后在操作提示框中点击【采集this element text】。

  文本字段可以通过这种方式提取。在示例中,我们提取了问题名称和问题描述等字段。

  

  特别说明:

  一个。文字、图片、视频、源代码是不同的数据形式,在操作提示框中选择提取方式时略有不同。文字一般为【采集此元素文字】,图片一般为【采集此图片地址】。更多提取方法请点击查看不同数据类型(文本、图片、链接、源代码等)的提取方法教程

  3、编辑字段

  进入【提取数据】设置界面,可以删除冗余字段、修改字段名称、移动字段顺序、添加字段等

  点击+,选择【添加当前网址信息】-【页面网址】,使用采集current question的链接。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线