php禁止网页抓取(对织dedecms网站的robots.txt文件设置是否合理,哪些文件或者目录需要屏蔽、哪些设置方法)
优采云 发布时间: 2021-09-27 04:17php禁止网页抓取(对织dedecms网站的robots.txt文件设置是否合理,哪些文件或者目录需要屏蔽、哪些设置方法)
一个合格的织梦dedecms网站必须在根目录中收录robots.txt文件。这个文件的作用是为所有操作织梦dedecms网站的朋友不陌生,网上有很多制作robots.txt文件的方法和软件,就是相当方便。
但是,你真的知道织梦dedecms网站的robots.txt文件设置是否合理,哪些文件或目录需要屏蔽,哪些设置方法适合织梦dedecms网站 操作有什么好处吗?
下面带着这些问题,笔者会给出详细的解答,希望对新手站长朋友有所帮助。
一、什么是robots.txt
笔者引用了百度站长工具的后一段来解释。搜索引擎使用蜘蛛程序自动访问互联网上的网页并获取网页信息。当蜘蛛访问一个网站时,它会首先检查网站的根域下是否有一个名为robots.txt的纯文本文件。这个文件是用来指定蜘蛛在你的网站 爬取范围上的。您可以在您的网站中创建robots.txt,并在文件中声明网站中不想被搜索引擎收录搜索的部分或指定那个搜索引擎只是收录的特定部分。
二、robots.txt文件对网站有什么好处
1、快速增加网站权重和流量;
2、禁止某些文件被搜索引擎索引,可以节省服务器带宽和网站访问速度;
3、为搜索引擎提供简洁明了的索引环境
三、 哪些目录网站需要使用robots.txt文件禁止爬取
1),图片目录
图片是构成网站的主要元素。现在建网站越来越方便,出现了大量的cms,如果你真的会打字就可以建网站,也正因为如此方便,还有很多网上同质化的模板。网站,反复使用,这样的网站搜索引擎肯定不喜欢,就算你的网站是收录,那你的效果也很贫穷的。如果非要使用这种类型的网站,建议在robots.txt文件中屏蔽。通常的网站图片目录是:imags或img;
2)、网站模板目录
正如上面图片目录中提到的,cms的强大和灵活也导致了许多同质化的网站模板的出现和滥用。高度重复的模板形成了一种搜索引擎冗余,模板文件往往与生成的文件高度相似,也容易造成内容相同的现象。对搜索引擎非常不友好,严重者直接被搜索引擎打入冷宫,绝不能翻身。许多 cms 都有独立的模板存储目录。因此,应屏蔽模板目录。通常模板目录的文件目录为:templates
3)、CSS、JS目录屏蔽
CSS目录文件在搜索引擎的爬行中是无用的,也不能提供有价值的信息。因此,强烈建议站长朋友将其屏蔽在Robots.txt文件中,以提高搜索引擎的索引质量。为搜索引擎提供简洁明了的索引环境,更容易提升网站的友好度。CSS 样式的目录通常是:CSS 或样式
JS 文件在搜索引擎中无法识别。这里只是建议,可以屏蔽。这还有一个好处:它为搜索引擎提供了一个简洁明了的索引环境;
4),屏蔽双页内容
我们以DEDEcms为例。大家都知道 DEDEcms 可以使用静态和动态 URL 访问相同的内容。如果生成静态站点,那么必须屏蔽动态地址的 URL 链接。这里有两个好处:1、搜索引擎对静态网址比动态网址更友好、更容易收录;2、防止静态和动态网址访问同一篇文章文章 被搜索引擎判断为重复内容。这对搜索引擎的友好性是有益且无害的。
5),模板缓存目录
许多 cms 程序都有缓存目录。不用说,每个人都知道这种缓存目录的好处。可以有效提高网站的访问速度,减少网站的带宽。用户体验也非常好。但是,这样的缓存目录也有一定的缺点,那就是会让搜索引擎反复爬行。网站中内容的重复也是一个很大的牺牲,对网站是有害的。很多用cms建网站的朋友都没有注意到,一定要注意。
6)删除的目录
太多的死链接对搜索引擎优化来说是致命的。不禁引起了站长的高度重视。在网站的开发过程中,目录的删除和调整在所难免。如果你的网站当前目录不存在,必须用robots.txt屏蔽该目录,返回正确的404错误页面(注意:在IIS中,有些朋友在设置404错误时设置有问题。在自定义错误页面,404错误的正确设置应该是选择:默认值或文件,而不是:防止搜索引擎返回200状态码的URL。至于如何设置,网上教程很多,请自行搜索.)
这里有一个有争议的问题,关于网站后台管理目录是否需要屏蔽,其实这是可选的。在保证网站安全的情况下,如果你的网站操作规模很小,即使网站管理目录出现在robots.txt文件中,也不会很大问题。我见过很多网站是这样设置的;但是如果你的网站运营规模大,比赛太多,强烈建议不要显示你的网站后台管理目录的任何信息,以防被别有用心的人利用损害您的利益;其实搜索引擎越来越聪明了,还能识别网站的管理目录 好吧,放弃索引。另外,在网站后台工作时,还可以在页面的meta标签中添加:屏蔽搜索引擎抓取。
最后需要说明一下,很多站长朋友喜欢把站点地图地址放在robots.txt文件中。当然,这不是屏蔽搜索引擎,而是让搜索引擎第一次索引网站。可以通过站点地图快速抓取网站的内容。这里需要注意:1、站点地图的制作一定要规范;2、网站必须有高质量的内容;