excel抓取多页网页数据(优采云采集器V9源码部分区域做限定,多页地址获取方式)

优采云 发布时间: 2022-03-17 08:15

  excel抓取多页网页数据(优采云采集器V9源码部分区域做限定,多页地址获取方式)

  公司介绍从网站获取,*敏*感*词*从网站获取。所以我们需要使用多页功能来实现这一点。前者称为默认页地址,后者称为多页地址。

  流程:点击①创建多页,设置②设置多页,然后在数据源③中选择多页调用,最后根据多页源代码设置提取方式。

  

  下面重点介绍②,获取多页地址的两种方式:页地址替换和源码截取。

  1.页面地址替换:即默认页面和多页面地址相同的地方,通过简单的替换就可以变成多页面地址。

  比较默认页面“”和多页地址的共同点:“”,我们可以发现默认页面“creditdetail.htm”被替换为“contactinfo.htm”是我们的多页地址。

  设置如下:

  

  注意:正则表达式中的 (.*) 是任何通配符。$1, $2...$ 数字依次对应上面 (.*) 所指示的部分。要限制多页源代码的局部区域,可以指定多页源代码区域设置。

  如果留空,则默认返回整个源代码的多页。设置好后点击Test查看结果。

  2.从源码截取:即多个页面的地址在默认页面的页面源码中。

  如图,可以看到默认页面源码中有多个页面地址。

  

  所以设置如下:

  

  测试后,如果正确,可以保存。最后,设置数据源和提取方式,如图:

  

  注意:如果需要多级多页,可以在多页地址获取方式中选择需要的多页。

  

  这两种获取方式你掌握了吗?以后在爬网站的时候,使用优采云采集器V9上面的操作,就可以轻松获取关联的多页地址,作为一个综合的网站抓取向导,< @优采云采集器肯定会考虑到用户的需求以及如何最大限度的方便

  分类:

  技术要点:

  相关文章:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线