搜索引擎禁止的方式优化网站(在robot.txt进行设置阻止(这招只能防君子))
优采云 发布时间: 2022-01-13 20:10搜索引擎禁止的方式优化网站(在robot.txt进行设置阻止(这招只能防君子))
或者误杀百度和谷歌)修改页面的标签、css,在页面内容展示布局中随机使用不同的模板或者不同的html标签,导致智能爬取爬虫规则很硬,导致采集不进展顺利。(是一种方式,但是好像维护成本太高,而且如果是根据html文档中标签的顺序和顺序来爬取,这个方法也没用) 自己添加网站@ > 内容中的 URL,或广告等。(对于一些写蜘蛛的菜鸟可以防止,但是高手就不一样了,可以过滤掉这些广告Drop)用js加密内容(防止爬,但是这样会导致所有蜘蛛机器人爬的内容都是加密的,不利于搜索引擎优化) Flash (同上) Ajax (同上) ... ...这些方法只能组织常规蜘蛛的访问,但不能实现:防止非人类行为爬取数据,允许指定搜索引擎任意抓取,允许正常人任意浏览。那么有什么方法可以真正实现呢?就是这样,虽然不能完全屏蔽,但是非常好用:1、记录用户的访问频率,然后如果频率超过一定的限制,就会弹出页面验证码,用户可以输入验证码后继续2、判断传入的搜索引擎是百度还是谷歌,如果是则没有访问频率限制。它不能通过用户代理完成,因为可以模拟用户代理。应该通过IP倒置来完成:主机66.249.71.6会得到如下信息6.71.249. 66.in-addr.arpa 域名指针。好吧,是谷歌的蜘蛛,这个IP可以任意采集。注:IP反分析所得信息不可伪造。很多时候,只需输入验证码。