免规则采集器列表算法(小旋风蜘蛛池如何采集句子及文章添加规则的全套教程)

优采云 发布时间: 2021-08-29 10:01

  免规则采集器列表算法(小旋风蜘蛛池如何采集句子及文章添加规则的全套教程)

  本文为小旋风蜘蛛池编写后台采集规则的全套教程。如果您将使用优采云采集器 或优采云采集器,请跳过本教程,它很容易使用。

  本文仅以X6版小旋风蜘蛛池为例。不明白的可以在文末留言。

  一、小旋风蜘蛛池How to采集title

  标题库采集还是很简单的,只需要设置采集source的地址即可。

  首先添加采集规则,选择文章title。

  

  如何写分页:

  http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_{p,1,9,1}.shtml

  {p,1,5,1}表示分页,参数:p后面的数字代表开始、结束、增减值,即{p、开始、结束、增减}

  http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_3.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_4.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_5.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_6.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_7.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_8.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_9.shtml

  测试规则时,可以从URL匹配中看到。添加后,测试看看效果:

  

  二、小旋风蜘蛛池如何采集句和文章

  添加规则:选择整个内容或句子段落

  比如我们要采集芭新闻,地址为:,只需在列表配置选项的匹配URL中填写上面的地址即可。

  

  打开采集source 的地址,选择一篇新闻文章。复制其链接地址。

  

  这里的地址是:

  那么,内容匹配规则可以这样写

  https://news.sina.com.cn/(w)/(d)-(d)-(d)/(w)-(w).shtml

  内容拦截规则:

  打开内容地址。右键查看源码,找到内容区。

  

  那么内容拦截规则可以这样写:

  

  像新浪这样的大型网站,它的一些内容页面是不同的。我们可以编写更多匹配项。

  保存后查看效果。

  

  注意:当你采集句子和文章时,你会自动采集链接到图片,所以不用担心你的内容库中没有图片!

  目录导航

  一、小旋风蜘蛛池How to采集title

  二、小旋风蜘蛛池如何采集句和文章

  标签:蜘蛛池教程,蜘蛛池程序,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线