php禁止网页抓取(代代SEO为大家详细的讲解下“”SEO在做网站)

优采云发布时间: 2021-10-07 13:19

　　今天就给大家详细讲解一下“robots.txt只允许抓取html页面，防止垃圾邮件！” 这么多年替网站做SEO，经常遇到客户网站因为自己维护网站，或者使用开源< @cms 市面上，直接下载源码安装，不管有没有漏洞或后门，结果后来被挂马入侵，大量垃圾非法页面被盗百度。

　　一些被挂马的人疑惑，为什么他们的网站正常内容不是收录，但垃圾页面的非法内容却被百度严重收录。其实很简单。哪些是关联的？马的人员直接链接了哪个非法页面的蜘蛛池，所以就会出现这个问题。即使我们解决了网站被挂马的问题，网站上的垃圾页面还会继续被百度抓到，死链接需要很长时间才能生效。这个时候我该怎么办？我们可以使用robots.txt来解决这个问题。

　　实现原理：

　　我们可以使用robots.txt来限制用户只能抓取HTMl页面文件，并且可以限制指定目录下的HTML，以及阻止指定目录下的HTML文件。让我们为robots.txt制作一个写入方法。你可以自己研究它并在实践中应用它。去你自己的网站。

　　可能的挂马形式：

　　这个robots编译规则主要针对上传马的类型，比如添加xxx.php?=dddd.html;xxxx.php; 上传不会被百度抓取，降低网络监控风险。

　　#适用于所有搜索引擎

　　用户代理：*

　　#允许首页根目录/且不带斜杠，例如

　　允许：/$

　　允许：$

　　#File属性设置为禁止修改（固定属性，入口只能是index.html/index.php）

　　允许：/index.php

　　允许：/index.html

　　#允许爬取静态生成的目录，这里是允许爬取页面中的所有html文件

　　允许：/*.html$

　　#禁止所有带参数的html页面（禁止爬马链接的html页面）规则可以自己定义

　　禁止：/*?*.html$

　　禁止：/*=*.html$

　　#Allow single entry, only allowed, with? 编号索引，其他带有符号的html 是不允许的。

　　允许：/index.php?*

　　#允许资源文件，允许网站抓图。

　　允许：/*.jpg$

　　允许：/*.png$

　　允许：/*.gif$

　　#除上述外，禁止抓取网站中的任何文件或页面。

　　不允许：/

　　Robots.txt、index.php、templates等文件限制写入权限；（当然，如果他们被入侵到服务中，有root权限是另外一回事），在正常的网络监控过程中，可以检查robots文件是否被修改过。修改，服务器肯定被攻击了，只要不修改这些文件，入侵主要是上传文件或者攻击数据库；

　　比如我们的网站挂了的时候，邮戳通常是一样的。php?unmgg.html，或 dds=123.html。这种，只要收录网址？当然，你可以在，= 的符号中添加更多格式，例如，带有下划线“_”，你可以使用“Disallow:/_*.html$”进行防御。

　　再比如：马的链接是一个目录，一个普通的URL，比如“seozt/1233.html”，可以添加一个禁止规则“Disallow:/seozt/*.html$”，这个规则就是告诉搜索引擎，只要是seozt目录下的html文件，都是爬不出来的。你明白吗？其实很简单。你只需要熟悉它。

　　这种写法的优点是：

　　首先，spider 会抓取很多你的核心目录、php 目录和模板目录。会浪费大量的目录资源。对了，如果我们屏蔽目录，就会在robots.txt中暴露我们的目录，其他人可以分析我们使用的内容。它是什么样的程序？这时候我们采用反向模式进行操作，直接允许html，拒绝其他一切，可以有效的避免暴露目录的风险，对了，好吧，今天就讲到这里，希望大家能理解。

　　第一部分：如何禁止垃圾邮件爬虫并阻止指定的UA（详细教程）！

0

2021-10-07

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(代代SEO为大家详细的讲解下“”SEO在做网站)

0 个评论

发起人

AI时代内容工厂

php禁止网页抓取(代代SEO为大家详细的讲解下“”SEO在做网站)

0 个评论

发起人

相关问题