火车头采集器第二章第2节：多级网址获取

优采云发布时间: 2020-04-25 11:03

　　上图可以看见网址获取选项那儿下边有3个选项分别是“从页面手动剖析得到地址链接”，“手动填写链接地址规则”，“使用Xpath方法获取地址”。下面就这个3种形式进行讲解下。

　　1.从页面手动剖析得到地址链接

　　这种方法获取地址是告诉采集器一个采集范围，采集器会把这个范围内的链接地址全部采集到，上图“从该选取区域中提取网址”这个就是写范围的。有的时侯可能采集的结果有些是我们不想要的，那么上图的“结果网址过滤”就可以设置地址中必须包含字符或则不得包含的字符。

　　我们就采集这个地址下边的新闻列表为例来设置说明下。我们首先打开这个页面火车头采集教程，然后页面右击查看页面源代码。如下图

　　大家先看下打开的源文件是不是好多页面上的信息都可以看源文件里听到。那么就找下我们要采集的新闻在那里，上图我们看见第一篇新闻的标题是“facebook故事出新玩法”，这里注意下这个新闻是及时更新的，当你见到这篇教程的时侯第一篇文章标题早就不是这个了，这里你们注意。方法是一样的，大家要会举一反三。我们可以复制这个标题去页面源代码里出查找瞧瞧在哪些位置如图：

　　上图注意下红框框下来的字符，这串字符复制在页面源代码里向下查找一下，发现查找不到也就是说这串字符是在页面源文件第一次出现（这个很重要，必须是第一次出现），下面就是我们要采集的新闻内容的地址。这串字符就是这个区域的开始。

　　用前面同样的办法查找最后一篇文章所在位置，找到这个区域的结束如下图：

　　最后一篇文章结束位置找一串字符做为结束，这里是可以随便的，只要保证从我们前面说的开始字符开始第一次出现的就可以了，我这类找的是</div>，你同样可以找别的。

　　这里我们就把开始字符和结束字符找到了火车头采集教程，现在添加到采集器上面。

0

2020-04-25

字符

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

火车头采集器第二章第2节：多级网址获取

0 个评论

发起人

AI时代内容工厂

火车头采集器第二章第2节：多级网址获取

0 个评论

发起人

相关问题