搜索引擎禁止的方式优化网站(在robot.txt进行设置阻止(这招只能防君子))

优采云发布时间: 2022-01-13 20:10

　　或者误杀百度和谷歌）修改页面的标签、css，在页面内容展示布局中随机使用不同的模板或者不同的html标签，导致智能爬取爬虫规则很硬，导致采集不进展顺利。（是一种方式，但是好像维护成本太高，而且如果是根据html文档中标签的顺序和顺序来爬取，这个方法也没用）自己添加网站@ > 内容中的 URL，或广告等。（对于一些写蜘蛛的菜鸟可以防止，但是高手就不一样了，可以过滤掉这些广告Drop）用js加密内容（防止爬，但是这样会导致所有蜘蛛机器人爬的内容都是加密的，不利于搜索引擎优化) Flash (同上) Ajax (同上) ... ...这些方法只能组织常规蜘蛛的访问，但不能实现：防止非人类行为爬取数据，允许指定搜索引擎任意抓取，允许正常人任意浏览。那么有什么方法可以真正实现呢？就是这样，虽然不能完全屏蔽，但是非常好用：1、记录用户的访问频率，然后如果频率超过一定的限制，就会弹出页面验证码，用户可以输入验证码后继续2、判断传入的搜索引擎是百度还是谷歌，如果是则没有访问频率限制。它不能通过用户代理完成，因为可以模拟用户代理。应该通过IP倒置来完成：主机66.249.71.6会得到如下信息6.71.249. 66.in-addr.arpa 域名指针。好吧，是谷歌的蜘蛛，这个IP可以任意采集。注：IP反分析所得信息不可伪造。很多时候，只需输入验证码。

0

2022-01-13

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(在robot.txt进行设置阻止(这招只能防君子))

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(在robot.txt进行设置阻止(这招只能防君子))

0 个评论

发起人

相关问题