如何有效避免自己网站的内容被他人采集?

优采云 发布时间: 2020-08-17 14:39

  如何有效避免自己网站的内容被他人采集

  

  在不影响用户阅读体验的情况下,尽量在内容段落之间随机插入一些之间的信息,比如:网站名字,链接,版权作者,QQ等,这样的话,就算对方使用采集器过滤也不可能整篇文章都能过滤得掉。

  方法三:作品结尾留作者信息及链接

  不过这个方式作用不是很大,因为很多人复制或转载内容时直接除去了,可以参考方式二,适当在段落结尾处不影响阅读的情况下下随机插入较好。

  方法四:主动推送网址给百度收录

  百度给出的链接递交方法有以下三种:

  1、主动推送:最为快速的递交方法,推荐您将站点当日新产出链接立刻通过此方法推献给百度,以保证新链接可以及时被百度收录。

  2、sitemap:您可以定期将网站链接放在sitemap中,然后将sitemap递交给百度。百度会周期性的抓取检测您递交的sitemap,对其中的链接进行处理,但收录速率慢于主动推送。

  3、手工递交:一次性递交链接给百度,可以使用此种形式。

  方法五:利用JS加密网页内容

  这个方式是在某些网站上见到的,非常暴力。缺点:搜索引擎爬虫难以辨识收录和通杀所有采集器,针对极其厌恶搜索引擎和采集器的网站的站长使用,量力而行,您能豁出去了,别人也就没办法采集你了。

  方法六:网站随机采用不同模版

  分析:因为采集器是按照网页结构来定位所须要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。

  适用网站:动态网站,并且不考虑用户体验。

  采集器会怎样做:一个网站模版不可能少于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果少于10个模版了,既然目标网站都这么费力的更换模版,成全他,撤。

  方法七:利用脚本语言做分页(隐藏分页)

  分析:还是那句,搜索引擎爬虫不会针对各类网站的隐藏分页进行剖析,这影响搜索引擎对其收录。但是,采集器在编撰采集规则时,要剖析目标网页代码,懂点脚本知识的人,就会晓得分页的真实链接地址。

  适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识。

  采集器会怎样做:应该说采集器会怎样做,他总之都要剖析你的网页代码,顺便剖析你的分页脚本,花不了多少额外时间。

  方法八:限制IP地址单位时间的访问次数

  分析:没有那个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这些喜好的,就剩下搜索引擎爬虫和厌恶的采集器了。

  弊端:一刀切,这同样会制止搜索引擎对网站的收录。

  适用网站:不太借助搜索引擎的网站。

  采集器会怎样做:减少单位时间的访问次数,减低采集效率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线