php禁止网页抓取(网站的robots.txt文件设置是不是合理,哪些文件或许目录需求屏蔽、哪些设置办法对网站有优点)
优采云 发布时间: 2021-12-24 22:16php禁止网页抓取(网站的robots.txt文件设置是不是合理,哪些文件或许目录需求屏蔽、哪些设置办法对网站有优点)
网站的robots.txt文件设置是否合理,目录中可能需要屏蔽哪些文件,哪些设置方式对网站的操作有优势?有人复制相同的内容来应对不同搜索引擎的排名规则。但是,一旦搜索引擎发现站点中存在大量“克隆”页面,他们将代替收录这些重复页面受到惩罚。另一方面,我们网站的内容是个人隐私文件,我们不想暴露给搜索引擎。这时候robot.txt就是为了解决这两个问题。
一、什么是robots.txt
搜索引擎使用蜘蛛程序主动访问互联网页面,获取页面信息。当蜘蛛访问一个网站时,它首先会检查网站的根域下是否有一个名为robots.txt的纯文本文件。这个文件是用来指定蜘蛛是在你的网站 爬取计划上的。你可以在你的网站中创建一个robots.txt,并在文件中声明一些你不想被搜索引擎输入的网站可以指定搜索引擎只输入特定的那些。
二、robots.txt文件对网站有什么好处
1、快速增加网站权重和访问量;
2、 防止某些文件被搜索引擎索引,可以节省服务器带宽和网站访问速度;
3、 为搜索引擎提供简洁明了的索引环境
三、 哪些网站目录需要使用robots.txt文件来停止爬取
1),图片目录
图像是 网站 的主要组成部分。现在建网站越来越方便,cms的介绍也很多。如果你真的会打字,你会构建网站。因为这个方便,网上有很多同质化的模板。网站,被反复使用,这样的网站搜索引擎肯定不喜欢,就算你的网站输入了,你的效果很穷。如果非要使用这种网站,建议在robots.txt文件中屏蔽。一般网站图片目录为:imags或img;
2)、网站模板目录
正如上面图片目录中提到的,cms 的强大和敏捷也导致了许多同质化的 网站 模板的呈现和滥用。高度重复的模板形成了一种搜索引擎。冗余,且模板文件往往与生成的文件高度相似,容易形成相同内容的呈现。我对搜索引擎很不友好,被搜索引擎直接狠狠打入冷宫,绝不能翻身。很多cms都有独立的模板存放目录,因此模板目录很可能被屏蔽了。通用模板目录的文件目录为:templates
3)、css、js目录屏蔽
css目录文件在搜索引擎的爬行中是无用的,也不能提供有价值的信息。因此,强烈建议在robots.txt文件中进行屏蔽,以提高搜索引擎的索引质量。为搜索引擎提供简洁明了的索引环境,更容易提升网站友好度。css样式的目录一般是:css或者style
无法在搜索引擎中识别 .js 文件。我只主张他们可以被阻止。这还有一个好处:它为搜索引擎提供了一个简洁明了的索引环境;
4),屏蔽双页内容
我们以 dedecms 为例。我们都知道 dedecms 可以使用静态和动态 URL 访问相同的内容。如果生成全站静态,那么就需要屏蔽动态地址的URL连接。这里有两个优点:1、搜索引擎对静态网址更友好,比动态网址更容易输入;2、 避免静态和动态URL 访问同一篇文章被搜索文章 引擎判断重复内容。这样做对搜索引擎友好性有益且无害。
5),模板缓存目录
许多 cms 程序都有缓存目录。不用说,我们了解这个缓存目录的优点。提高网站的访问速度,减少网站的带宽,是非常有用的。用户体验也非常出色。但是,这样的缓存目录也有一定的缺陷,就是会允许搜索引擎重复抓取,而网站中内容的重复也是一个很大的牺牲,对网站是有害的@>。很多用cms建网站的兄弟都没有注意到,要注意。
6)删除的目录
太多的死链接对于搜索引擎优化来说是致命的。不能不引起站长的高度重视。在网站的开发过程中,目录的删除和调整在所难免。如果当时你的网站目录不存在,需要用robots屏蔽这个目录,返回到正确的目录。404错误页面(注意:在iis中,有的兄弟设置了404错误时间,设置有问题。在自定义错误页面中,404错误的正确设置大概是选择:default value or file, not about 是: url避免搜索引擎返回200状态码,至于怎么设置,网上教程很多,自己查查)
这里有一个有争议的问题,至于是否需要阻塞网站后台目录处理,其实这是可选的。在保证网站安全的情况下,如果你的网站操作计划很小,即使网站目录出现在robots.txt文件中,也没有太大的疑问。我也会看到这个。很多网站都是这样设置的;但是如果你的网站运营计划很大,对手太多,我强烈建议你不要把网站后台管理目录的信息展示出来,以免被你怀上。被不可预测的人使用会危及您的利益;引擎越来越智能了,网站的管理目录还是能很好的识别出来,丢弃索引。
四、robots.txt 的基本语法
内容项的基本格式:键:值对。
1) 用户代理密钥
以下内容对应各个特定搜索引擎爬虫的名称。例如,百度是百度蜘蛛,谷歌是谷歌机器人。
一般我们写:
用户代理: *
表示允许所有搜索引擎蜘蛛爬行。如果只希望某个搜索引擎蜘蛛爬行,只需在后面列出名称即可。如果有多个,请重复书写。
注意:User-Agent:后面必须有一个空格。
在robots.txt中,在key后面加上:,后面一定要有一个空格来和value区分开来。
2)禁止密钥
该键用于指示不允许搜索引擎蜘蛛抓取的 URL 路径。
例如: Disallow: /index.php 禁止网站index.php 文件
允许键
这个key表示允许搜索引擎蜘蛛爬取的URL路径
例如: Allow: /index.php 允许 网站 的 index.php
通配符*
代表任意数量的字符
例如: Disallow: /*.jpg 网站 禁止所有 jpg 文件。
终结者$
表示以前一个字符结尾的 url。
例如: Disallow: /?$ 网站 所有以?结尾的文件 被禁止。