如何用优采云采集文章内容页文章页教程
优采云 发布时间: 2021-07-28 05:41如何用优采云采集文章内容页文章页教程
记得之前的教程已经教过你如何对采集列表进行分页,那么下面我们继续,如何获取列表的url到采集文章content页面。
相信在你浏览网页的时候,尤其是打开news网站看新闻的时候。经常看到文章内页有分页,要一一点击,才能看完整个文章。
首先,我个人讨厌这种做法。那么,他们这样做的目的,只要价值是增加pv,增加一些百度联盟或者其他促销广告,用于*敏*感*词*用。都说网站主要是为了钱。这没有什么问题。
但是,当他们这样做时,我们遇到了采集data 时如何对采集content 页面进行分页的问题。
好的,那么接下来我就告诉大家如何使用优采云采集器去采集文章的内容页中的分页。
前面的采集网址已经被一笔带过。不明白的可以看一下优采云采集previous 采集list页面上的教程。
第一步:我们在写爬取内容的规则时,记得勾选右上角的【This tag matching in pagination】。
如图所示:
第2步:我们在采集content页面填写分页获取规则,这里是抓取你的分页。也可以在tab循环处理选项下填写页面内容链接代码。
如图所示:
第三步:测试,我们写的采集pagination 规则不正确。
如图所示:
通过上面的步骤,是不是很容易就拿到了内容页的分页内容,采集down?感觉不错就试试吧。