内容采集器(优采云采集器多页地址的获取方式及获取方法介绍)
优采云 发布时间: 2021-09-04 02:18公司介绍自网站获取,*敏*感*词*自网站获取。所以我们需要使用多页功能来实现。前者称为默认页地址,后者称为多页地址。
流程:点击①创建多页,进行②多页设置,然后在数据源③中选择多页调用,最后根据多页源码设置提取方式。
下面将重点介绍②,获取多页地址的两种方式:页地址替换和源代码拦截。
1.Page地址替换:即默认页和多页地址有相同的地方,可以通过简单的替换变成多页地址。
对比默认页面“”和多页面地址:“”的共同点,可以发现默认页面“creditdetail.htm”替换为“contactinfo.htm”。 htm”也是我们的多页地址。
设置如下:
注意:正则表达式中的 (.*) 是任何通配符。数字$1、$2...$ 依次对应于上面(.*) 所指示的部分。如果想限制多页源码的部分区域,可以在多页源码的指定区域设置。
如果留空,则默认返回整个源代码的多页。设置好后点击Test查看结果。
从源码截取的2.:即多个页面的地址在默认页面的页面源码中。
如图所示,可以看到默认页面源码中有多个页面地址。
所以设置如下:
测试后,如果正确,请保存。最后,设置数据源和提取方式,如图:
注意:如果需要多级多页,可以在多页地址获取方法中选择需要的多页
这两种获取方式你掌握了吗?以后可以通过优采云采集器V9在捕获网站时的上述操作,方便的获取关联的多页地址,作为一个函数综合网站Grabber Wizard,优采云采集器一定会考虑到用户的需求以及如何最大限度地提高便利性