php禁止网页抓取(代代SEO为大家详细的讲解下“”SEO在做网站)
优采云 发布时间: 2021-10-07 13:19php禁止网页抓取(代代SEO为大家详细的讲解下“”SEO在做网站)
今天就给大家详细讲解一下“robots.txt只允许抓取html页面,防止垃圾邮件!” 这么多年替网站做SEO,经常遇到客户网站因为自己维护网站,或者使用开源< @cms 市面上,直接下载源码安装,不管有没有漏洞或后门,结果后来被挂马入侵,大量垃圾非法页面被盗百度。
一些被挂马的人疑惑,为什么他们的网站正常内容不是收录,但垃圾页面的非法内容却被百度严重收录。其实很简单。哪些是关联的?马的人员直接链接了哪个非法页面的蜘蛛池,所以就会出现这个问题。即使我们解决了网站被挂马的问题,网站上的垃圾页面还会继续被百度抓到,死链接需要很长时间才能生效。这个时候我该怎么办?我们可以使用robots.txt来解决这个问题。
实现原理:
我们可以使用robots.txt来限制用户只能抓取HTMl页面文件,并且可以限制指定目录下的HTML,以及阻止指定目录下的HTML文件。让我们为robots.txt制作一个写入方法。你可以自己研究它并在实践中应用它。去你自己的网站。
可能的挂马形式:
这个robots编译规则主要针对上传马的类型,比如添加xxx.php?=dddd.html;xxxx.php; 上传不会被百度抓取,降低网络监控风险。
#适用于所有搜索引擎
用户代理:*
#允许首页根目录/且不带斜杠,例如
允许:/$
允许:$
#File属性设置为禁止修改(固定属性,入口只能是index.html/index.php)
允许:/index.php
允许:/index.html
#允许爬取静态生成的目录,这里是允许爬取页面中的所有html文件
允许:/*.html$
#禁止所有带参数的html页面(禁止爬马链接的html页面)规则可以自己定义
禁止:/*?*.html$
禁止:/*=*.html$
#Allow single entry, only allowed, with? 编号索引,其他带有符号的html 是不允许的。
允许:/index.php?*
#允许资源文件,允许网站抓图。
允许:/*.jpg$
允许:/*.png$
允许:/*.gif$
#除上述外,禁止抓取网站中的任何文件或页面。
不允许:/
Robots.txt、index.php、templates等文件限制写入权限;(当然,如果他们被入侵到服务中,有root权限是另外一回事),在正常的网络监控过程中,可以检查robots文件是否被修改过。修改,服务器肯定被攻击了,只要不修改这些文件,入侵主要是上传文件或者攻击数据库;
比如我们的网站挂了的时候,邮戳通常是一样的。php?unmgg.html,或 dds=123.html。这种,只要收录网址?当然,你可以在,= 的符号中添加更多格式,例如,带有下划线“_”,你可以使用“Disallow:/_*.html$”进行防御。
再比如:马的链接是一个目录,一个普通的URL,比如“seozt/1233.html”,可以添加一个禁止规则“Disallow:/seozt/*.html$”,这个规则就是告诉搜索引擎,只要是seozt目录下的html文件,都是爬不出来的。你明白吗?其实很简单。你只需要熟悉它。
这种写法的优点是:
首先,spider 会抓取很多你的核心目录、php 目录和模板目录。会浪费大量的目录资源。对了,如果我们屏蔽目录,就会在robots.txt中暴露我们的目录,其他人可以分析我们使用的内容。它是什么样的程序?这时候我们采用反向模式进行操作,直接允许html,拒绝其他一切,可以有效的避免暴露目录的风险,对了,好吧,今天就讲到这里,希望大家能理解。
第一部分:如何禁止垃圾邮件爬虫并阻止指定的UA(详细教程)!