优采云采集器进入列表页后如何进一步获取内容网址?
优采云 发布时间: 2021-07-24 07:24优采云采集器进入列表页后如何进一步获取内容网址?
我们在使用采集的时候,往往需要先从网页的初始URL中获取内容页面的URL。那么优采云采集器进入列表页面后,如何进一步获取内容URL呢?让我们邀请新手。下面我们来看看内容页网址采集规则是如何制定的。
内容URL获取有两种类型:常规模式和高级模式。 1.Regular 模式:该模式默认抓取一级地址,即从起始页的源码中获取到内容页A的链接。它有两种方式: a.自动获取地址链接 b.设置规则为手动获取。 2.Advanced模式:该模式对0级、多级、POST类URL的爬取有效。即起始网址为内容页网址;或者需要多级列表网址采集才能得到最终的内容页面链接;或者在post URL类型爬取的情况下使用高级模式。这里详细说明采集在普通模式a和b两种模式下的具体操作。高级模式将在后面解释。 【常规模式】自动获取地址链接。自动获取地址链接:自动获取该级别列表页面中所有标签的URL链接。如新浪大陆新闻:
得到的结果如图:
根据统计我们可以看到一共81个一级网址,但是我们实际需要抓取的一级网址是每页40个,说明有不需要的链接,所以我们可以使用区域设置和链接过滤,来过滤和获取我们需要的链接。点击浏览器查看网页源码,分析源码。所需链接应满足以下条件:起始串为结束串
我们在设置区填写,再次测试,查看结果。通过测试可以看出结果是正确的,如下图所示。
[常规模式]b.手动设置规则获取
对于一些脚本生成的网址,采集器无法自动识别。这时候就必须手动设置规则才能获取。手动设置规则的原理是编写脚本规则,匹配源码中的内容,获取自己设置的参数。其中,抽取规则中的[parameter]、(*)、[label:XXX]都是通配符,可以配置任意字符,但不同的是[parameter]有返回值,一般使用对于拼接地址,(*)没有返回值,[Label:XXX]有返回值,返回值给标签。如新浪大陆新闻:
源码如下:
山西公布政府部门职责清单,建立反腐倡廉机制(10月10日20:20)
河南登封市长被曝涉贪建庙 与史彦禄关系密切(10月10日20:14)
张家界国土资源局副局长涉嫌严重违纪被立案调查(19:4,10月105)
这时候我们可以把其中的一段代码作为循环匹配,将我们想要获取的链接替换为【参数】,将采集到达的值替换为一个标签。填写抽取规则如下:
参数]" target="_blank">[label:title]([label:time])
如上图所示,符合此格式的源代码会自动匹配。你从参数中得到的是内容页地址的链接,标题和时间分布在标签中。
这里网站拿取精灵优采云采集器V9已经完成了获取内容URL的通用模式设置。只要你阅读它,你会发现它更容易。 优采云采集器V9 软件需要大家多多了解,上手会很容易。返回搜狐查看更多