php禁止网页抓取( 什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息)
优采云 发布时间: 2021-12-02 15:11php禁止网页抓取(
什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息)
禁止搜索引擎的方法收录
禁止搜索引擎的方法收录
什么是 robots.txt 文件?
搜索引擎使用蜘蛛程序自动访问互联网上的网页并获取网页信息。当蜘蛛访问一个网站时,它首先会检查网站的根域下是否有一个名为robots.txt的纯文本文件。这个文件是用来指定蜘蛛在你的网站 爬取范围上的。您可以在您的网站中创建一个robots.txt,并在文件中声明网站中不想被搜索引擎收录搜索到的部分或指定搜索引擎仅是 收录 特定部分。
请注意,只有当您的网站收录您不想被收录搜索的内容时,您才需要使用robots.txt文件。如果您想要搜索引擎收录网站 上的所有内容,请不要创建robots.txt 文件。
robots.txt 文件在哪里?
robots.txt文件应该放在网站的根目录下。例如,当蜘蛛访问一个网站(例如)时,它会首先检查网站中是否存在该文件。如果蜘蛛找到该文件,它会根据文件的内容确定其访问权限的范围。
网站 robots.txt:///robots.txt:80/:80/robots.txt:1234/:1234/robots.txt:///robots.txt的URL对应的URL
我在robots.txt中设置了禁止百度收录me网站,为什么还是出现在百度搜索结果中?
如果您的robots.txt文件中设置了禁止收录的其他网站链接,这些网页可能仍会出现在百度的搜索结果中,但您网页上的内容将不会被抓取,索引和显示,百度搜索结果中显示的只是您相关网页的其他网站描述。
禁止搜索引擎关注网页链接,仅索引网页
如果您不希望搜索引擎跟踪此页面上的链接并且不传递链接的权重,请将此元标记放在页面的一部分中:
如果您不想让百度跟踪特定链接,百度也支持更精确的控制,请直接在链接上写下这个标记:
登入
要允许其他搜索引擎跟踪,但仅阻止百度跟踪指向您页面的链接,请将此元标记放置在页面的一部分中:
防止搜索引擎在搜索结果中显示网页快照,只索引网页
为了防止所有搜索引擎显示您的 网站 快照,请将此元标记放在页面的一部分中:
要允许其他搜索引擎显示快照,但只阻止百度显示,请使用以下标签:
注意:此标签仅禁止百度显示网页快照。百度将继续对网页进行索引,并在搜索结果中显示网页摘要。
我想禁止百度图片搜索收录中的一些图片,我该如何设置?
禁止百度蜘蛛抓取网站上的所有图片,禁止或允许百度蜘蛛抓取网站上特定格式的图片文件可以通过设置robots实现,请参考“robots.txt文件使用示例”示例10、11、12。
robots.txt 文件的格式
“robots.txt”文件收录一个或多个记录,由空行分隔(以CR、CR/NL或NL作为终止符)。每条记录的格式如下:
“:”。
可以在这个文件中使用#做注释,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,后跟几行 Disallow 和 Allow 行。详细情况如下:
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被“robots.txt”限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则对任何机器人都有效。在“robots.txt”文件中,只能有“User-agent:*”这样的一条记录。如果您在“robots.txt”文件中添加“User-agent:SomeBot”和几行禁止和允许行,则名称“SomeBot”仅受“User-agent: SomeBot”后的禁止和允许行的限制。
不允许:
该项的值用于描述一组不想被访问的 URL。该值可以是完整路径或路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,“Disallow:/help/”允许机器人访问/help.html、/helpabc。 html,而不是访问 /help/index.html。“禁止:”表示允许机器人访问网站的所有URL。“/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”不存在或为空文件,则此网站 对所有搜索引擎机器人开放。
允许:
此项的值用于描述您要访问的一组 URL。与 Disallow 项类似,该值可以是完整路径或路径前缀。允许机器人访问以 Allow 项的值开头的 URL。例如,“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站 的所有 URL 默认都是 Allow 的,所以 Allow 通常与 Disallow 结合使用,允许访问某些网页,同时禁止访问所有其他 URL。
需要注意的是,Disallow 和 Allow 行的顺序是有意义的,机器人会根据第一个匹配成功的 Allow 或 Disallow 行来决定是否访问 URL。
使用“*”和“$”:
百度蜘蛛支持使用通配符“*”和“$”来模糊匹配URL。
"$" 匹配行尾。
“*”匹配 0 个或多个任意字符。
URL匹配示例
Allow 或 Disallow 值的 URL 匹配结果 /tmp/tmpyes/tmp/tmp.htmlyes/tmp/tmp/a.htmlyes/tmp//tmpno/tmp//tmphohono/tmp//tmp/a.htmlyes/Hello*/Hello .htmlyes/He*lo/Hello,loloyes/Heap*lo/Hello,lolonohtml$/tmpa.htmlyes/a.html$/a.htmlyeshtm$/a.htmlno
需要注意的是,每个目录必须单独声明,不能写成“Disallow: /cgi-bin/ /tmp/”。User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/Example6. 允许访问特定目录中的部分 url User-agent: *Allow: /cgi- bin/seeAllow: /tmp/hiAllow: /~joe/lookDisallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/Example 7. 使用“*”来限制访问url,禁止访问/cgi-bin/ 后缀为“.htm”的所有 URL(包括子目录)。
User-agent: *Disallow: /cgi-bin/*.htm 示例 8. 使用“$”限制对 URL 的访问,只允许访问带有“.htm”后缀的 URL。User-agent: *Allow: .htm$Disallow: /example9. 禁止访问网站 中的所有动态页面 User-agent: *Disallow: /*?*Example 10. 禁止百度蜘蛛抓取了网站上的所有图片。只允许抓取网页,不允许抓取图片。用户代理:BaiduspiderDisallow: /*.jpg$Disallow: /*.jpeg$Disallow: /*.gif$Disallow: /*.png$Disallow: /*.bmp$Example 11. 只允许Baiduspider抓取网页和.gif格式的图片允许抓取gif格式的网页和图片,但不允许抓取其他格式的图片。用户代理:BaiduspiderAllow: /*.gif$Disallow: /*.jpg$Disallow: /*.
robots.txt 文件参考
关于robots.txt文件更具体的设置,请参考以下链接:
· 机器人排除协议的 Web 服务器管理员指南
· 机器人排除协议的 HTML 作者指南
· 1994 年的原创协议描述,如当前部署
· 修订后的 Internet-Draft 规范,尚未完成或实施