免规则采集器列表算法(小旋风蜘蛛池如何采集句子及文章添加规则的全套教程)
优采云 发布时间: 2021-08-29 10:01免规则采集器列表算法(小旋风蜘蛛池如何采集句子及文章添加规则的全套教程)
本文为小旋风蜘蛛池编写后台采集规则的全套教程。如果您将使用优采云采集器 或优采云采集器,请跳过本教程,它很容易使用。
本文仅以X6版小旋风蜘蛛池为例。不明白的可以在文末留言。
一、小旋风蜘蛛池How to采集title
标题库采集还是很简单的,只需要设置采集source的地址即可。
首先添加采集规则,选择文章title。
如何写分页:
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_{p,1,9,1}.shtml
{p,1,5,1}表示分页,参数:p后面的数字代表开始、结束、增减值,即{p、开始、结束、增减}
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_3.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_4.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_5.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_6.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_7.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_8.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_9.shtml
测试规则时,可以从URL匹配中看到。添加后,测试看看效果:
二、小旋风蜘蛛池如何采集句和文章
添加规则:选择整个内容或句子段落
比如我们要采集芭新闻,地址为:,只需在列表配置选项的匹配URL中填写上面的地址即可。
打开采集source 的地址,选择一篇新闻文章。复制其链接地址。
这里的地址是:
那么,内容匹配规则可以这样写
https://news.sina.com.cn/(w)/(d)-(d)-(d)/(w)-(w).shtml
内容拦截规则:
打开内容地址。右键查看源码,找到内容区。
那么内容拦截规则可以这样写:
像新浪这样的大型网站,它的一些内容页面是不同的。我们可以编写更多匹配项。
保存后查看效果。
注意:当你采集句子和文章时,你会自动采集链接到图片,所以不用担心你的内容库中没有图片!
目录导航
一、小旋风蜘蛛池How to采集title
二、小旋风蜘蛛池如何采集句和文章
标签:蜘蛛池教程,蜘蛛池程序,