丰富的采集神器(优采云采集器官方视频教程见怎么办?浏览器图文教程)

优采云 发布时间: 2021-09-04 00:13

  丰富的采集神器(优采云采集器官方视频教程见怎么办?浏览器图文教程)

  因为代码排版采集器比较麻烦,很早就知道优采云采集器的强大,所以把一些常规的采集内容贴在图文教程中,供以后使用。

  优采云采集器官方视频教程见:

  采集进程:

  1、打开网页

  2、找到“加载更多”和“显示20”的Xpath路径

  3、设置循环,Ajax

  4、循环提取内容

  5、内容正则化

  6、设置采集

  注意:首先循环遍历列表,然后提取数据。

  ————————————————————————————————————

  1、打开网页

  打开网页部分,就是你想要的网页。

  ————————————————————————————————————

  2、找到“加载更多”和“显示20”的Xpath路径

  官方认为火狐浏览器,只是加载了一些插件。

  在附加组件中。需要加载两个插件:firebug 和firePath。可以自行搜索下载。

  右键单击:“使用 Firebug 查看元素”,

  点击“火路”

  在原页面点击“加载页面”,会显示Xpath。

  ————————————————————————————————————

  3、设置循环,Ajax

  然后填写“单个元素”,如果上面出现“加载更多”字样,说明这一步设置成功。

  同时在其中拖放一个click元素,在“高级选项”中设置两步:

  勾选“使用循环”;

  检查 Ajax 加载并设置 2s。

  ————————————————————————————————————

  4、循环提取内容

  此步骤与常规设置相同。

  直接点击元素-创建元素列表处理一组元素-添加列表-继续编辑列表-再次点击-添加到列表-创建列表完整-循环

  同时注意:如果是load more再显示的问题,不能放在上面循环的上面,而应该放在下面。

  5、Extract 数据正则化

  提取数据时,会出现只需要选择一部分,需要选择:

  格式化数据-添加一个步骤,然后选择该步骤。

  ————————————————————————————————————

  最终流程图:

  —————————————————————————————————

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线