丰富的采集神器(优采云采集器官方视频教程见怎么办?浏览器图文教程)
优采云 发布时间: 2021-09-04 00:13丰富的采集神器(优采云采集器官方视频教程见怎么办?浏览器图文教程)
因为代码排版采集器比较麻烦,很早就知道优采云采集器的强大,所以把一些常规的采集内容贴在图文教程中,供以后使用。
优采云采集器官方视频教程见:
采集进程:
1、打开网页
2、找到“加载更多”和“显示20”的Xpath路径
3、设置循环,Ajax
4、循环提取内容
5、内容正则化
6、设置采集
注意:首先循环遍历列表,然后提取数据。
————————————————————————————————————
1、打开网页
打开网页部分,就是你想要的网页。
————————————————————————————————————
2、找到“加载更多”和“显示20”的Xpath路径
官方认为火狐浏览器,只是加载了一些插件。
在附加组件中。需要加载两个插件:firebug 和firePath。可以自行搜索下载。
右键单击:“使用 Firebug 查看元素”,
点击“火路”
在原页面点击“加载页面”,会显示Xpath。
————————————————————————————————————
3、设置循环,Ajax
然后填写“单个元素”,如果上面出现“加载更多”字样,说明这一步设置成功。
同时在其中拖放一个click元素,在“高级选项”中设置两步:
勾选“使用循环”;
检查 Ajax 加载并设置 2s。
————————————————————————————————————
4、循环提取内容
此步骤与常规设置相同。
直接点击元素-创建元素列表处理一组元素-添加列表-继续编辑列表-再次点击-添加到列表-创建列表完整-循环
同时注意:如果是load more再显示的问题,不能放在上面循环的上面,而应该放在下面。
5、Extract 数据正则化
提取数据时,会出现只需要选择一部分,需要选择:
格式化数据-添加一个步骤,然后选择该步骤。
————————————————————————————————————
最终流程图:
—————————————————————————————————