网页采集器的自动识别算法(优采云采集器进入列表页后如何进一步获取内容页网址?)
优采云 发布时间: 2021-09-17 20:19网页采集器的自动识别算法(优采云采集器进入列表页后如何进一步获取内容页网址?)
使用采集时,我们通常需要从网页的初始URL获取内容页URL。那么优采云采集器进入列表页面后,如何进一步获取内容URL?让我们邀请新手来看看如何创建内容页URL采集rules
在中,内容URL获取有两种模式:常规模式和高级模式1.general模式:此模式默认获取主地址,即从起始页的源代码获取到内容页a的链接。有两种方式:A.自动获取地址链接,B.手动设置规则获取2.advanced模式:此模式对0级、多级、post类型的网址抓取有效。即,起始URL是内容页URL;或者您需要设置多级列表URL采集以获取最终内容页链接;或者在post URL类型捕获的情况下使用高级模式。这里详细描述了常规模式中模式a和模式B采集的具体操作,后面将解释高级模式。[常规模式]A.自动获取地址链接自动获取地址链接:自动获取该级别列表页面中所有标签的URL链接。例如新浪大陆新闻:
所得结果如下图所示:
根据统计,我们可以看到总共找到了81个一级网站,但实际我们需要抓取的一级网站是每页40个,这表明有我们不需要的链接,所以我们可以通过区域设置和链接过滤过滤来过滤和获取我们需要的链接。单击以使用浏览器查看网页源代码,并分析源代码。得出结论,所需链接应满足以下条件:开始字符串为,结束字符串为
我们在设置区域填充它,再次测试它,然后查看结果。从测试中可以看出,结果是正确的,如下图所示
[常规模式]B.手动设置规则获取
对于脚本生成的某些网址,采集器无法自动识别。在这种情况下,您需要手动设置规则以获取它们。手动设置规则获取的原理是编写脚本规则,匹配源代码中的内容,获取自己设置的参数。提取规则中的[parameter]、(*)和[label:XXX]是通配符,可以配置为任何字符。不同之处在于,[parameter]有一个返回值,通常用于拼接地址,(*)没有返回值,[label:XXX]有一个返回值,该返回值被赋予标签。例如新浪大陆新闻:
源代码如下:
山西公布政府部门责任清单,建立拒腐防变机制(10月10日20:00)20)
据报道,河南省登封市市长在修建寺庙过程中涉嫌腐败,并与石延禄关系密切(10月10日20:00)14)
张家界市国土资源局副局长因严重违纪被调查(10月10日19:00)45)
此时,我们可以将其中一个代码作为循环匹配,用[parameter]替换我们想要获得的链接,并用标签替换我们需要采集to的值。按如下方式填写提取规则:
参数]“target=“_blank”>;[标签:标题]([标签:时间])
如上图所示,符合此格式的源代码将自动匹配,内容页地址链接在参数中获得,标题和时间分布在标签中
在这里,网站抓住精灵优采云采集器V9获取内容URL的一般模式设置已完成。只要您阅读,就会觉得相对简单,优采云采集器V9你需要了解更多关于该软件的信息,所以它将很容易开始。回到搜狐查看更多信息