JS模式不能自动补全网址,所以要在“拼接成最终链接”
优采云 发布时间: 2021-03-25 04:17JS模式不能自动补全网址,所以要在“拼接成最终链接”
某些文章内容太长,将以分页模式显示,以文章“”为例
首先,我们在“ 采集器设置”获取内容“内容分页”中启用分页
文章通常是带有分页的正文,我们将“正文”字段添加为“页面内容字段”
文章页面图片:
在图中,我们可以看到有4种分页类型:完全分页,向上和向下分页,完全页面JS模式和向上和向下分页JS模式
分页链接的格式为:article / news / pg / id / number.html?page = number
通过“测试”分析网页的功能获取每个分页区域的xpath:
上述xpath值可以在“内容分页”“获取分页区域”中设置,以获取固定区域的分页链接,否则将获得整个页面的分页链接
分页链接规则:
完整分页和上下分页可以通过a标签直接获取链接:
复制代码
通过查看JS模式分页的源代码发现的链接格式为:
复制代码
使用规则匹配分页链接:
复制代码
由于JS模式无法自动完成URL,因此必须填写``拼接到最终页面链接'':
[内容1]
复制代码
为了防止未分页的链接匹配,请在“内容分页”中填写“ page =“,分页URL过滤“必须包括”,请使用“ article / news / pg / id / d + .html?page = d +获得更精确的“
我们测试了“全分页JS模式”的链接爬网
“测试”爬网页面的效果
注意:由于程序问题,许多网站都将具有文章主页链接的两种格式。例如,示例中的文章主页链接为:和(从第二个页面文章主页开始就是此链接),如果这两个链接的内容相同,则将导致文章的重复爬网主页
解决方案:在“内容分页”中填充“ page = 1 $”,分页URL过滤“无法收录”以排除第一页链接
常见问题:
相关知识点:
此站点文章摘自Shurong网络上的权威信息,书籍或网络原创 文章。如果您有任何版权纠纷或侵权,请立即与我们联系以将其删除。禁止擅自复制和转载!谢谢...