采集文章(上下页导航式是如何采集出来的？如何对比分析)

优采云发布时间: 2021-08-31 00:07

　　上下页导航是采集分页的难点。它需要所有页面都符合分页规则。如果不熟悉，我们可以使用第1页和第2页的代码进行对比分析，然后确定分页规律。

　　1、下面以网站的内容分页为例：

　　可以看到这条新闻一共有20页。

　　2、查看源码：

　　本页除了采集已经到达的第一页外，还包括第二、三、四、五、六、七、八、二十页，但是9-19页没有列出这时候我们就用page 1和page 2的代码进行对比分析，确定分页规则：

　　(1)第1页代码：

　　(2)第2页代码：

　　从这两张图可以看出，它们的“页面区域起始码”、“页面链接”格式、“页面区域结束码”是相同的，那么就可以确定“页面区域规则”和“页面链接”常规”。

　　3、获取分页区正则([!--smallpageallzz--])：

　　4、获取分页链接常规（[!--pageallzz--]）：

　　5、为了方便教程展示，我在newstext中采集，而不是采集content，预览结果：

　　注意事项：

　　#一、在第一页的HTML代码中，当列出所有内容分页链接时，我们使用“list all”。在第一页的HTML代码中，当内容分页链接没有全部列出时，我们使用“上下页面导航”。

　　二、使用全列表公式时，采集规则是正确的，但是莫名有重复的页面，那么可以用替换的方法过滤掉（下节讲）。

　　三、使用下一页导航样式时，我总是选第一页，其他页面连影子都没看到。这是因为分页区正则([!--smallpagezz--])截取错误。

　　四、使用上下页导航样式时，可以采集跳转到前几页，但是前几页会重复循环到最后。这也是因为分页区正则([!--smallpagezz--])拦截错误，拦截范围过大，导致重复拦截前几页链接。

0

2021-08-31

采集文章

0 个评论

要回复文章请先登录或注册