算法 自动采集列表( 就是很难一篇文章讲解过垃圾网站的情况,如何配置发布端)

优采云 发布时间: 2021-12-25 11:03

  算法 自动采集列表(

就是很难一篇文章讲解过垃圾网站的情况,如何配置发布端)

  

  之前的一篇文章解释了垃圾网站的情况,其中提到了一种特殊的垃圾网站,就是利用采集插件实现网站内容的自动填充。

  作者之前没做过采集

,近期打算建一个资源共享站。因为资源量太大,我自己做的,花了300块钱请人采集

。经过研究,我发现这不是很困难。今天简单分享给大家。

  一、认识采集

插件

  

  要想用好采集

工具,首先要知道有哪些采集

工具。如果你的网站是用各种开源系统搭建的(开源系统可以看我之前的文章),通常会有相应的采集

插件,也有一些比较知名的采集软件。

  作者不是专业的。今天只分享作者使用的优采云

采集软件。它不作为插件存在,而是作为一个独立的软件存在,只能在windows系统上运行。

  要使用优采云

集合,需要知道如何配置发布者以及如何配置集合对象。所谓发布端就是你自己的网站,所谓采集

对象就是你要提供的具体采集

对象的页面内容。

  二、如何配置发布者

  既然是有钱人做的,这部分也正是作者无法解释清楚的,因为发布模块设置了访问密码。

  

  既然作者花钱请人制作,就有理由相信模组的*敏*感*词*也在努力保护自己的劳动成果。但同时我也发现一个网站可以下载各种开源系统的发布模块。

  

  同时,本站也有很多采集

功能写的学习文章。感兴趣的朋友可以深入挖掘。如果不想深挖,可以看看你使用的网站系统有没有发布模块。

  三、采集终端如何配置

  在这里不得不说,作者也是偷懒,没有认真研究采集

,只是根据别人写的规则研究了一下。

  

  从上面的截图中可以看出,这是集合配置的第一个地方。左边的“1级列表页面”表示我要采集

的页面只有一级列表,下一步干货!

  1、 提取规则中的代码哪里来的?

  · 通过浏览器打开起始网址(即我们要采集内容的页面)

  

  · 在打开的页面按F12(windows电脑)调出网页调试

  

  · 选择小箭头(mac和windows系统不一样,自己找)

  

  · 选择页面上的内容区域

  

  仔细对比一下这里的代码是否和提取规则中的代码完全一样?没错,抽取规则就是以此内容为切入点。同时,提取该缩略图作为张贴在您自己网站上的缩略图。

  注意:[parameter]标签是需要提取的信息,(*)标签代表被忽略的信息。

  2、在哪里可以找到设置区域?

  还是用刚才的方法,这次我们用小箭头选择整个列表页:

  

  我们比较一下

  

  另一个其实是翻页标签。你要知道这个列表有很多页,采集

系统需要识别到哪里翻页:

  

  此外,还有一些配置需要完成,但基本操作方法类似。如下所示:

  

  3、内容采集

规则

  

  请注意,上面的标签列表因人而异。只有标题和内容是通用的。这里主要讲一下title和content的提取:

  首先我们要进入采集

对象的文章内容页面,然后使用和之前一样的方法获取源码部分。一般标题默认会在head标签中(如果不知道head标签是什么,可以参考我之前的前端集成文章):

  

  所以填写固定标签:“title”:“[参数]”!如下所示:

  

  意思是读取title:标签后面的参数。请注意,这里的选择是常规提取,就是从特定的内容中提取我们需要的参数。请注意,截图下方有数据处理。这是什么意思?

  

  从截图中可以看出,毕竟是从别人的网站上采集

的。难免别人会带一些自己的网站标志。我们自然不希望在使用其他人的内容时出现其他人的网站徽标。需要使用数据处理功能自动替换一些我们要替换的内容。

  

  可以看到里面有很多高级替换功能。如果你想移除它,就拿移除规则,你可以自己研究其他规则。

  注:数据处理可以同时添加多个规则,可以同时处理多个替换功能。

  下面介绍内容采集。对于内容区的采集,我们选择前后截取。这是什么意思?通过定义head和tail,采集

head和tail之间的所有内容:

  

  上面第一个框中截取的代码是开头,第二个框中截取的代码是结尾。因为代码是折叠的,所以你可能看不到详细的代码,但是你不需要它。让我们从上面的浏览器转到绿色。并且蓝色区域可以看出整个文章内容区域实际上已经被截取了。

  

  填写开始字符串和结束字符串。那么在数据替换中,为了避免采集到的信息以代码的形式被采集到我们的网站,我们需要做一些数据处理,使采集到的内容尽可能简单的文字化!其中,HTML标签排除的应用可以排除一些我们不想采集

的内容:

  

  其他采集

对象需要根据实际发布物品进行采集

,大体规则类似!终于可以进行测试采集和发布了,会玩小电脑的小白可以自己摸一摸了!(反正小编之前没碰过合集,有模型参考的瞬间我就不知道了!)

  四、结论

  编辑从来没玩过采集

。第一次接触,感觉真的很方便,于是不自觉的分享了起来!作为教程,它有一些不足,就是让大家有个基本的了解。如果你想系统地学习,你可以找一些采集

资料自学!最后,我要说明一下,本文中演示的集合对象仅用于演示目的。

  大家请使用正确、合理、合法的申请采集

功能,关注我学习更多小白可以学习的网络知识,有问题可以留言咨询!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线