JS模式不能自动补全网址,所以要在“拼接成最终链接”

优采云 发布时间: 2021-03-25 04:17

  JS模式不能自动补全网址,所以要在“拼接成最终链接”

  某些文章内容太长,将以分页模式显示,以文章“”为例

  首先,我们在“ 采集器设置”获取内容“内容分页”中启用分页

  文章通常是带有分页的正文,我们将“正文”字段添加为“页面内容字段”

  

  文章页面图片:

  

  在图中,我们可以看到有4种分页类型:完全分页,向上和向下分页,完全页面JS模式和向上和向下分页JS模式

  分页链接的格式为:article / news / pg / id / number.html?page = number

  通过“测试”分析网页的功能获取每个分页区域的xpath:

  上述xpath值可以在“内容分页”“获取分页区域”中设置,以获取固定区域的分页链接,否则将获得整个页面的分页链接

  分页链接规则:

  完整分页和上下分页可以通过a标签直接获取链接:

  复制代码

  通过查看JS模式分页的源代码发现的链接格式为:

  复制代码

  

  使用规则匹配分页链接:

  复制代码

  由于JS模式无法自动完成URL,因此必须填写``拼接到最终页面链接'':

  [内容1]

  复制代码

  为了防止未分页的链接匹配,请在“内容分页”中填写“ page =“,分页URL过滤“必须包括”,请使用“ article / news / pg / id / d + .html?page = d +获得更精确的“

  我们测试了“全分页JS模式”的链接爬网

  

  “测试”爬网页面的效果

  

  注意:由于程序问题,许多网站都将具有文章主页链接的两种格式。例如,示例中的文章主页链接为:和(从第二个页面文章主页开始就是此链接),如果这两个链接的内容相同,则将导致文章的重复爬网主页

  解决方案:在“内容分页”中填充“ page = 1 $”,分页URL过滤“无法收录”以排除第一页链接

  常见问题:

  相关知识点:

  此站点文章摘自Shurong网络上的权威信息,书籍或网络原创 文章。如果您有任何版权纠纷或侵权,请立即与我们联系以将其删除。禁止擅自复制和转载!谢谢...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线