采集网站内容(绝大多数规则防采集对策采集器都是靠分析文件名规则)

优采云 发布时间: 2022-03-16 08:19

  采集网站内容(绝大多数规则防采集对策采集器都是靠分析文件名规则)

  六、只允许通过本站页面连接查看,如:Request.ServerVariables("HTTP_REFERER")

  缺点:影响搜索引擎对收录

  采集对策:不知道能不能模拟网页的来源。. . . 我目前没有针对这种方法的 采集 对策

  建议:目前没有好的改进建议

  点评:建议期望来自搜索引擎流量的站长不要使用这种方法。但是,这种方法对普通的 采集 程序还是有效的。

  从上面可以看出,目前常用的防止采集的方法要么对搜索引擎收录的影响比较大,要么防止采集的效果不够好防止 采集 影响。那么,有没有一种有效的方法来防止采集而不影响搜索引擎收录呢?那么请继续阅读!

  从我前面提到的采集原理可以看出,大部分采集程序对采集都是依赖分析规则的,比如分析分页文件名规则,分析页面代码规则.

  一、分页文件名规则防范采集对策

  大多数采集器 依赖于分页文件名规则的分析,用于批量、多页采集。如果其他人找不到您的分页文件的文件名规则,那么其他人将无法批量处理您的网站 的多个页面采集。

  执行:

  我认为使用 MD5 加密分页文件名是一种更好的方法。有人会说你用MD5加密分页文件名,其他人可以模拟你的加密规则,根据这个规则得到你的分页文件名。

  我想指出的是,当我们加密分页文件名时,不要只加密文件名中发生变化的部分

  如果I代表分页的页码,那么我们就不用这样加密了:page_name=Md5(I,16)&".htm"

  最好在要加密的页码后面跟一个或多个字符,如:page_name=Md5(I&"任意一个或几个字母",16)&".htm"

  因为MD5不能解密,别人看到的会议页面的字母是MD5加密的结果,所以加法者无法知道你后面我后面的字母是什么,除非他用暴力去****MD5,但是不太现实。

  二、页面代码规则防范采集对策

  如果我们的内容页面没有代码规则,那么其他人就无法从您的代码中提取他们需要的内容片段。所以我们要在这一步防止采集,我们必须让代码变得不规则。

  执行:

  随机化交易对手需要提取的代币

  1、自定义多个网页模板。每个网页模板中的重要 HTML 标签是不同的。在呈现页面内容时,随机选择网页模板。有的页面使用CSS+DIV布局,有的页面使用表格布局。这种方法有点麻烦。对于一个内容页面,需要多做几个模板页面,但是防止采集本身就是一件很麻烦的事情。多做一个模板可以起到防止采集的作用。对于很多人来说,这是值得的。

  2、如果你觉得上面的方法太繁琐,把网页中重要的HTML标签随机化,也可以。

  你做的网页模板越多,html代码越乱,对方在分析内容代码的时候就越麻烦,对方特地写一个采集就更难了网站 的策略。这个时候大部分人都会不顾一切的放弃,因为这个人比较懒,所以会采集others网站data~~~ 再说了,目前大部分人都在服用采集别人开发的程序去采集数据,自己开发采集程序去采集数据的毕竟是少数。

  这里有一些简单的想法给你:

  1、使用客户端脚本显示对数据重要的内容采集,而不是搜索引擎

  2、 将一页数据分成N页展示,也是增加采集难度的一种方式

  3、使用更深的连接,因为大部分采集程序只能采集到网站内容的前3层,如果内容在更深的连接层,你也可以避免成为 采集。但是,这可能会给客户带来不便。如:

  大部分网站都是首页----内容索引分页----内容页

  如果改为:

  首页----内容索引分页----内容页入口----内容页

  注意:最好在内容页入口处添加自动转入内容页的代码

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线