php禁止网页抓取(代代SEO为大家详细的讲解下“”SEO在做网站)

优采云 发布时间: 2021-10-07 13:19

  php禁止网页抓取(代代SEO为大家详细的讲解下“”SEO在做网站)

  今天就给大家详细讲解一下“robots.txt只允许抓取html页面,防止垃圾邮件!” 这么多年替网站做SEO,经常遇到客户网站因为自己维护网站,或者使用开源< @cms 市面上,直接下载源码安装,不管有没有漏洞或后门,结果后来被挂马入侵,大量垃圾非法页面被盗百度。

  

  一些被挂马的人疑惑,为什么他们的网站正常内容不是收录,但垃圾页面的非法内容却被百度严重收录。其实很简单。哪些是关联的?马的人员直接链接了哪个非法页面的蜘蛛池,所以就会出现这个问题。即使我们解决了网站被挂马的问题,网站上的垃圾页面还会继续被百度抓到,死链接需要很长时间才能生效。这个时候我该怎么办?我们可以使用robots.txt来解决这个问题。

  

  实现原理:

  我们可以使用robots.txt来限制用户只能抓取HTMl页面文件,并且可以限制指定目录下的HTML,以及阻止指定目录下的HTML文件。让我们为robots.txt制作一个写入方法。你可以自己研究它并在实践中应用它。去你自己的网站。

  

  可能的挂马形式:

  这个robots编译规则主要针对上传马的类型,比如添加xxx.php?=dddd.html;xxxx.php; 上传不会被百度抓取,降低网络监控风险。

  #适用于所有搜索引擎

  用户代理:*

  #允许首页根目录/且不带斜杠,例如

  允许:/$

  允许:$

  #File属性设置为禁止修改(固定属性,入口只能是index.html/index.php)

  允许:/index.php

  允许:/index.html

  #允许爬取静态生成的目录,这里是允许爬取页面中的所有html文件

  允许:/*.html$

  #禁止所有带参数的html页面(禁止爬马链接的html页面)规则可以自己定义

  禁止:/*?*.html$

  禁止:/*=*.html$

  #Allow single entry, only allowed, with? 编号索引,其他带有符号的html 是不允许的。

  允许:/index.php?*

  #允许资源文件,允许网站抓图。

  允许:/*.jpg$

  允许:/*.png$

  允许:/*.gif$

  #除上述外,禁止抓取网站中的任何文件或页面。

  不允许:/

  Robots.txt、index.php、templates等文件限制写入权限;(当然,如果他们被入侵到服务中,有root权限是另外一回事),在正常的网络监控过程中,可以检查robots文件是否被修改过。修改,服务器肯定被攻击了,只要不修改这些文件,入侵主要是上传文件或者攻击数据库;

  比如我们的网站挂了的时候,邮戳通常是一样的。php?unmgg.html,或 dds=123.html。这种,只要收录网址?当然,你可以在,= 的符号中添加更多格式,例如,带有下划线“_”,你可以使用“Disallow:/_*.html$”进行防御。

  再比如:马的链接是一个目录,一个普通的URL,比如“seozt/1233.html”,可以添加一个禁止规则“Disallow:/seozt/*.html$”,这个规则就是告诉搜索引擎,只要是seozt目录下的html文件,都是爬不出来的。你明白吗?其实很简单。你只需要熟悉它。

  这种写法的优点是:

  首先,spider 会抓取很多你的核心目录、php 目录和模板目录。会浪费大量的目录资源。对了,如果我们屏蔽目录,就会在robots.txt中暴露我们的目录,其他人可以分析我们使用的内容。它是什么样的程序?这时候我们采用反向模式进行操作,直接允许html,拒绝其他一切,可以有效的避免暴露目录的风险,对了,好吧,今天就讲到这里,希望大家能理解。

  第一部分:如何禁止垃圾邮件爬虫并阻止指定的UA(详细教程)!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线