网站内容采集(《上下页导航式》之HTML2页的代码分析)

优采云发布时间: 2021-09-30 00:20

　　上下页导航是分页采集的难点。它需要所有页面都符合分页规律。如果我们不熟悉，我们可以使用第1页和第2页的代码进行比较分析，然后确定Paging规则。

　　1、下面以网站的内容分页为例：

　　可以看到这条新闻一共有20页。

　　2、查看源码：

　　这个页面除了采集已经到达的第一页，还包括第二、三、四、五、六、七、八、二十页，但是第一页是从9到19分页未列出。这时候我们用第1页和第2页的代码进行对比分析，确定分页规则：

　　（1）第 1 页代码：

　　（2）第2页代码：

　　从这两张图可以看出，它们的“页面区域起始码”、“页面链接”格式、“页面区域结束码”是相同的，那么就可以确定“页面区域规律”和“页面链接规律”了.

　　3、获取分页区正则([!--smallpageallzz--])：

　　4、获取分页链接常规（[!--pageallzz--]）：

　　5、为了方便教程的展示，新闻文本我采集有标题而不是采集的内容，预览结果：

　　预防措施：

　　一、在第一页的HTML代码中，当列出所有内容分页链接时，我们使用“list all”。在第一页的HTML代码中，当内容分页链接没有全部列出时，我们使用“上下导航”。

0

2021-09-30

网站内容采集

0 个评论

要回复文章请先登录或注册