采集网站内容(绝大多数规则防采集对策采集器都是靠分析文件名规则)

优采云发布时间: 2022-03-16 08:19

　　六、只允许通过本站页面连接查看，如：Request.ServerVariables("HTTP_REFERER")

　　缺点：影响搜索引擎对收录

　　采集对策：不知道能不能模拟网页的来源。. . . 我目前没有针对这种方法的采集对策

　　建议：目前没有好的改进建议

　　点评：建议期望来自搜索引擎流量的站长不要使用这种方法。但是，这种方法对普通的采集程序还是有效的。

　　从上面可以看出，目前常用的防止采集的方法要么对搜索引擎收录的影响比较大，要么防止采集的效果不够好防止采集影响。那么，有没有一种有效的方法来防止采集而不影响搜索引擎收录呢？那么请继续阅读！

　　从我前面提到的采集原理可以看出，大部分采集程序对采集都是依赖分析规则的，比如分析分页文件名规则，分析页面代码规则.

　　一、分页文件名规则防范采集对策

　　大多数采集器依赖于分页文件名规则的分析，用于批量、多页采集。如果其他人找不到您的分页文件的文件名规则，那么其他人将无法批量处理您的网站的多个页面采集。

　　执行：

　　我认为使用 MD5 加密分页文件名是一种更好的方法。有人会说你用MD5加密分页文件名，其他人可以模拟你的加密规则，根据这个规则得到你的分页文件名。

　　我想指出的是，当我们加密分页文件名时，不要只加密文件名中发生变化的部分

　　如果I代表分页的页码，那么我们就不用这样加密了：page_name=Md5(I,16)&".htm"

　　最好在要加密的页码后面跟一个或多个字符，如：page_name=Md5(I&"任意一个或几个字母",16)&".htm"

　　因为MD5不能解密，别人看到的会议页面的字母是MD5加密的结果，所以加法者无法知道你后面我后面的字母是什么，除非他用暴力去****MD5，但是不太现实。

　　二、页面代码规则防范采集对策

　　如果我们的内容页面没有代码规则，那么其他人就无法从您的代码中提取他们需要的内容片段。所以我们要在这一步防止采集，我们必须让代码变得不规则。

　　执行：

　　随机化交易对手需要提取的代币

　　1、自定义多个网页模板。每个网页模板中的重要 HTML 标签是不同的。在呈现页面内容时，随机选择网页模板。有的页面使用CSS+DIV布局，有的页面使用表格布局。这种方法有点麻烦。对于一个内容页面，需要多做几个模板页面，但是防止采集本身就是一件很麻烦的事情。多做一个模板可以起到防止采集的作用。对于很多人来说，这是值得的。

　　2、如果你觉得上面的方法太繁琐，把网页中重要的HTML标签随机化，也可以。

　　你做的网页模板越多，html代码越乱，对方在分析内容代码的时候就越麻烦，对方特地写一个采集就更难了网站的策略。这个时候大部分人都会不顾一切的放弃，因为这个人比较懒，所以会采集others网站data~~~ 再说了，目前大部分人都在服用采集别人开发的程序去采集数据，自己开发采集程序去采集数据的毕竟是少数。

　　这里有一些简单的想法给你：

　　1、使用客户端脚本显示对数据重要的内容采集，而不是搜索引擎

　　2、将一页数据分成N页展示，也是增加采集难度的一种方式

　　3、使用更深的连接，因为大部分采集程序只能采集到网站内容的前3层，如果内容在更深的连接层，你也可以避免成为采集。但是，这可能会给客户带来不便。如：

　　大部分网站都是首页----内容索引分页----内容页

　　如果改为：

　　首页----内容索引分页----内容页入口----内容页

　　注意：最好在内容页入口处添加自动转入内容页的代码

0

2022-03-16

采集网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集网站内容(绝大多数规则防采集对策采集器都是靠分析文件名规则)

0 个评论

发起人

AI时代内容工厂

采集网站内容(绝大多数规则防采集对策采集器都是靠分析文件名规则)

0 个评论

发起人

相关问题