robots设置的常见问题及解决办法(二)-robots
优采云 发布时间: 2021-07-24 06:01robots设置的常见问题及解决办法(二)-robots
三、robots 设置
1.robots.txt 文件是什么?
搜索引擎使用蜘蛛程序自动访问互联网上的网页并获取网页信息。当蜘蛛访问网站时,它会首先检查网站的根域下是否有一个名为robots.txt的纯文本文件。该文件用于在你的网站 上指定蜘蛛的爬行范围。你可以在你的网站中创建robots.txt,在文件中声明网站不想被搜索引擎收录搜索的部分或者指定搜索引擎只为收录具体部分。
请注意,只有当您的网站 收录您不想被收录 搜索的内容时,您才需要使用robots.txt 文件。如果您想要搜索引擎收录网站上的所有内容,请不要创建robots.txt文件。
2.robots.txt 文件在哪里?
robots.txt 文件应该放在网站root 目录下。例如,当蜘蛛访问网站(例如)时,它会首先检查网站中是否存在文件/robots.txt。如果蜘蛛找到了这个文件,它会根据文件的内容确定其访问权限的范围。
网站 URL 对应robots.txt URL
/
/robots.txt
:80/
:80/robots.txt
:1234/
:1234/robots.txt
/
/robots.txt
3.我在robots.txt中设置了禁止百度收录我网站,为什么还是出现在百度搜索结果中?
如果在您的robots.txt文件中设置了其他收录网页的网站链接,这些网页可能仍会出现在百度的搜索结果中,但您网页上的内容不会被抓取、索引和显示,百度搜索结果只显示您相关网页的其他网站描述。
4. 禁止搜索引擎跟踪网页链接,只索引网页
如果您不希望搜索引擎跟踪此页面上的链接,并且不传递链接的权重,请将此元标记放在页面的一部分:如果您不希望百度跟踪某个具体链接,百度也支持更精准的控制,请直接在链接上写这个标签:登录 允许其他搜索引擎跟踪,但只阻止百度跟踪到你页面的链接,请将此元标签放在页面:
5.禁止搜索引擎在搜索结果中显示网页快照,只能索引网页
为防止所有搜索引擎显示您的网站快照,请将此元标记放在页面的一部分:允许其他搜索引擎显示快照,但只阻止百度显示,请使用以下标记:注意:此标签百度仅禁止显示网页快照。百度将继续为该网页编制索引,并在搜索结果中显示该网页的摘要。
6.我要禁止百度图片搜索收录一些图片,怎么设置?
禁止百度蜘蛛抓取网站上的所有图片,禁止或允许百度蜘蛛抓取网站上某种格式的图片,可以通过设置robots实现,请参考“robots.txt文件使用示例”示例10、11、12。
7.robots.txt 文件格式
“robots.txt”文件收录一条或多条记录,以空行分隔(以 CR、CR/NL 或 NL 作为终止符)。每条记录的格式如下: ":" 在这个文件中可以用#做注解,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,后跟几行 Disallow 和 Allow 行,详细信息如下:
服务代理
此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被“robots.txt”限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则对任何机器人都有效。在“robots.txt”文件中,只能有“User-agent:*”等一条记录。如果您在“robots.txt”文件中添加“User-agent:SomeBot”和几行禁止和允许行,则名称“SomeBot”仅受“User-agent: SomeBot”后的禁止和允许行限制。
禁止
该项的值用于描述一组不想被访问的 URL。该值可以是完整路径或路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,“Disallow:/help/”允许机器人访问/help.html、/helpabc。 html,而不是访问 /help/index.html。 “禁止:”表示允许机器人访问网站的所有网址。在“/robots.txt”文件中,必须至少有一个Disallow记录。如果“/robots.txt”不存在或为空文件,则网站对所有搜索引擎robots打开。
允许
此项的值用于描述您要访问的一组 URL。与 Disallow 项类似,该值可以是完整路径或路径前缀。允许访问的机器人使用以 Allow 项的值开头的 URL。例如,“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。 网站 的所有 URL 默认都是 Allow 的,所以 Allow 通常与 Disallow 结合使用,允许访问某些网页,同时禁止访问所有其他 URL。
使用“*”和“$”:Baiduspider支持使用通配符“*”和“$”来模糊匹配url,“$”匹配行尾字符,“*”匹配0个或多个任意字符。注:我们将严格遵守机器人的相关协议。请注意区分您不想被抓取的目录或收录的大小写。我们会把robots中写入的文件和你不想被爬取的目录和收录做完全匹配,否则robots协议无法生效。
8. URL 匹配示例
允许或禁止值 URL 匹配结果
/tmp
/tmp
是的
/tmp
/tmp.html
是的
/tmp
/tmp/a.html
是的
/tmp
/tmhoho
没有
/你好*
/Hello.html
是的
/He*lo
/你好,哈哈
是的
/堆*lo
/你好,哈哈
没有
html$
/tmpa.html
是的
/a.html$
/a.html
是的
htm$
/a.html
没有
9.robots.txt 文件使用示例
例如1.禁止所有搜索引擎访问网站用户代理的任何部分:*禁止:/
示例2. 允许所有机器人访问(或者您可以创建一个空文件“/robots.txt”) User-agent: * Allow: /
Example3.只禁止百度蜘蛛访问你的网站User-agent:百度蜘蛛禁止://p>
Example4. 只允许百度蜘蛛访问你的网站User-agent:Baiduspider Allow: / User-agent: * Disallow: /
示例5. 只有百度蜘蛛和谷歌机器人被允许访问用户代理:百度蜘蛛允许:/用户代理:谷歌机器人允许:/用户代理:*禁止:/
示例6. 禁止蜘蛛访问特定目录。本例中网站有3个限制搜索引擎访问的目录,即robots不会访问这3个目录。需要注意的是,每个目录必须单独声明,不能写成“Disallow: /cgi-bin/ /tmp/”。用户代理:* 禁止:/cgi-bin/ 禁止:/tmp/ 禁止:/~joe/
示例7. 允许访问特定目录中的部分url User-agent: * Allow: /cgi-bin/see Allow: /tmp/hi Allow: /~joe/look Disallow: /cgi-bin / 禁止:/tmp/ 禁止:/~joe/
示例8. 使用“*”来限制对网址的访问。禁止访问/cgi-bin/目录(包括子目录)中所有后缀为“.htm”的URL。用户代理:* 禁止:/cgi-bin/*.htm
示例9. 使用“$”来限制对 URL 的访问,并且只允许访问带有“.htm”后缀的 URL。用户代理:* 允许:/*.htm$ 禁止:/
例10.禁止访问网站User-agent中的所有动态页面:* Disallow: /*?*
例11.禁止百度蜘蛛抓取网站上的所有图片。只允许抓取网页,禁止任何图片。用户代理:Baiduspider Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.gif$ Disallow: /*.png$ Disallow: /*.bmp$
例12. 只允许百度蜘蛛抓取网页和.gif格式的图片。网页和gif格式图片允许爬取,其他格式不允许。用户代理:Baiduspider 允许:/*.gif$ 禁止:/*.jpg$ 禁止:/*.jpeg$ 禁止:/*.png$ 禁止:/*.bmp$
Example 13. 只有百度蜘蛛禁止抓取.jpg格式的图片 User-agent:百度蜘蛛禁止:/*.jpg$
本文来自:SEO rules_sermon-CSDN博客