JS模式不能自动补全网址，所以要在“拼接成最终链接”

优采云发布时间: 2021-03-25 04:17

　　某些文章内容太长，将以分页模式显示，以文章“”为例

　　首先，我们在“ 采集器设置”获取内容“内容分页”中启用分页

　　文章通常是带有分页的正文，我们将“正文”字段添加为“页面内容字段”

　　文章页面图片：

　　在图中，我们可以看到有4种分页类型：完全分页，向上和向下分页，完全页面JS模式和向上和向下分页JS模式

　　分页链接的格式为：article / news / pg / id / number.html？page = number

　　通过“测试”分析网页的功能获取每个分页区域的xpath：

　　上述xpath值可以在“内容分页”“获取分页区域”中设置，以获取固定区域的分页链接，否则将获得整个页面的分页链接

　　分页链接规则：

　　完整分页和上下分页可以通过a标签直接获取链接：

　　复制代码

　　通过查看JS模式分页的源代码发现的链接格式为：

　　复制代码

　　使用规则匹配分页链接：

　　复制代码

　　由于JS模式无法自动完成URL，因此必须填写``拼接到最终页面链接''：

　　[内容1]

　　复制代码

　　为了防止未分页的链接匹配，请在“内容分页”中填写“ page =“，分页URL过滤“必须包括”，请使用“ article / news / pg / id / d + .html？page = d +获得更精确的“

　　我们测试了“全分页JS模式”的链接爬网

　　“测试”爬网页面的效果

　　注意：由于程序问题，许多网站都将具有文章主页链接的两种格式。例如，示例中的文章主页链接为：和（从第二个页面文章主页开始就是此链接），如果这两个链接的内容相同，则将导致文章的重复爬网主页

　　解决方案：在“内容分页”中填充“ page = 1 $”，分页URL过滤“无法收录”以排除第一页链接

　　常见问题：

　　相关知识点：

　　此站点文章摘自Shurong网络上的权威信息，书籍或网络原创文章。如果您有任何版权纠纷或侵权，请立即与我们联系以将其删除。禁止擅自复制和转载！谢谢...

0

2021-03-25

seo文章采集器

0 个评论

要回复文章请先登录或注册