文章采集功能(复制代码使用规则匹配出链接:JS模式自动补全网址)

优采云 发布时间: 2021-09-05 10:37

  文章采集功能(复制代码使用规则匹配出链接:JS模式自动补全网址)

  部分文章内容过长会分页显示,以文章""为例

  首先我们在“采集器Settings”获取内容“内容分页”中开启分页

  文章通常在body中有分页,我们将“body”字段添加为“页面内容字段”

  

  文章页面图片:

  

  图中我们可以看到分页有4种:完全分页、上下分页、完全分页JS模式和上下分页JS模式

  分页链接格式为:article/news/pg/id/number.html?page=number

  通过“测试”分析网页的功能获取各个分页区域的xpath:

  上面的xpath值可以在“Content Paging”Get Paging Area”中设置获取固定区域的分页链接,否则会获取整个页面的分页链接

  分页链接规则:

  完整分页和上下分页可以通过a标签直接获取链接:

  复制代码

  查看JS模式分页源码发现的链接格式为:

  复制代码

  

  使用规则匹配分页链接:

  复制代码

  由于JS模式无法自动补全网址,需要填写“拼接到最终页面链接”:

  [内容 1]

  复制代码

  为了防止非分页链接被匹配,在“内容分页”分页网址过滤“必须收录”中填写“page=”,使用“article/news/pg/id/d+.html?page” =d+ 更精确"

  我们测试了“全分页JS模式”的链接爬取

  

  “测试”抓取页面的效果

  

  注:很多网站会因为程序问题会有文章首页链接的两种格式。比如例子中的文章首页链接是:和(来自第二页文章首页的链接),如果这两个链接的内容相同,就会导致文章首页的重复爬取

  解决方法:在“内容分页”分页网址过滤“不能收录”中填写“page=1$”排除第一页链接

  常见问题:

  相关知识点:

  本站文章摘自书融网权威资料、书籍或网络原创文章。如果您有任何版权纠纷或侵权,请立即联系我们进行删除。未经许可禁止复制和转载!谢谢...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线