如何只禁止百度搜索引擎抓取收录网页的任何部分。。
优采云 发布时间: 2021-08-23 07:06如何只禁止百度搜索引擎抓取收录网页的任何部分。。
第一种方法,robots.txt方法
搜索引擎默认遵循robots.txt协议。创建一个 robots.txt 文本文件并将其放在网站root 目录中。编辑代码如下:
用户代理:*
禁止:/
通过上面的代码,你可以告诉搜索引擎不要抢收录本网站,并且小心使用上面的代码:这将禁止所有搜索引擎访问网站的任何部分。
如何只禁止百度搜索引擎收录抓取网页
1、编辑robots.txt文件,设计标志为:
用户代理:百度蜘蛛
禁止:/
以上robots文件将禁止所有来自百度的抓取。
在这里,让我们谈谈百度的用户代理。百度蜘蛛的用户代理是什么?
百度产品使用不同的用户代理:
产品名称对应用户代理
无线搜索百度蜘蛛
图片搜索Baiduspider-image
视频搜索百度蜘蛛视频
新闻搜索Baiduspider-news
百度采集baiduspider-favo
百度联盟Baiduspider-cpro
商业搜索百度蜘蛛广告
网页和其他搜索百度蜘蛛
您可以根据每个产品的不同用户代理设置不同的抓取规则。以下robots实现禁止所有来自百度的抓取,但允许图片搜索抓取/image/目录:
用户代理:百度蜘蛛
禁止:/
用户代理:Baiduspider-image
允许:/image/
请注意:Baiduspider-cpro和Baiduspider-ads抓取的网页不会被编入索引,只会执行与客户约定的操作。因此,如果您不遵守机器人协议,则只能通过联系百度人员解决。
如何只禁止谷歌搜索引擎收录抓取网页,方法如下:
编辑robots.txt文件,设计标志为:
用户代理:googlebot
禁止:/
编辑 robots.txt 文件
搜索引擎默认遵循robots.txt协议
robots.txt 文件放在网站root 目录下。
比如搜索引擎访问网站时,首先会检查网站根目录下是否存在robots.txt文件。如果搜索引擎找到这个文件,它会根据 Content 来确定它爬取的权限范围。
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被协议限制。对于这个文件,必须至少有一个 User-agent 记录。如果该项的值设置为*,则该协议对任何机器人都有效。 “robots.txt”文件中只能有“User-agent:*”等一条记录。
禁止:
此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow:/help”不允许搜索引擎访问/help.html 和/help/index.html,而“Disallow:/help/”允许机器人访问/help.html,但不允许访问/help/索引.html。如果任何 Disallow 记录为空,则表示允许访问 网站 的所有部分。 “/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”为空文件,则网站对所有搜索引擎机器人开放。
以下是 robots.txt 用法的一些示例:
用户代理:*
禁止:/
禁止所有搜索引擎访问网站的所有部分
用户代理:百度蜘蛛
禁止:/
百度收录全站
用户代理:Googlebot
禁止:/
禁止谷歌收录全站
用户代理:Googlebot
禁止:
用户代理:*
禁止:/
禁止除谷歌以外的所有搜索引擎收录全站
用户代理:百度蜘蛛
禁止:
用户代理:*
禁止:/
除百度之外的所有搜索引擎都禁止收录全站
用户代理:*
禁止:/css/
禁止:/admin/
禁止所有搜索引擎访问某个目录
(比如禁止在根目录下admin和css)
二、网页编码方法
在网站homepage 代码之间添加代码。此标签禁止搜索引擎抓取网站 并显示网页快照。
在网站homepage代码中添加禁止百度搜索引擎抓取网站并显示网页快照。
在网站homepage代码中添加,禁止谷歌搜索引擎抓取网站并显示网页快照。
另外,当我们的需求很奇怪的时候,比如以下几种情况:
1.网站添加了robots.txt,百度可以搜索到吗?
因为更新搜索引擎索引数据库需要时间。虽然百度蜘蛛已经停止访问您在网站上的网页,但清除百度搜索引擎数据库中已建立网页的索引信息可能需要几个月的时间。另请检查您的机器人是否配置正确。如果您被收录需求拒绝非常紧急,您也可以通过投诉平台反馈请求处理。
2.我希望网站的内容会被百度收录,但快照不会被保存。我该怎么办?
Baiduspider 符合互联网元机器人协议。您可以使用网页元设置使百度显示仅索引网页,而不在搜索结果中显示网页的快照。和robots的更新一样,因为搜索引擎索引库需要时间更新,虽然你已经禁止百度通过网页上的meta在搜索结果中显示网页的快照,如果百度已经建立了网页索引搜索引擎数据库信息,可能需要两到四个星期才能在线生效。
我想被百度收录,但不保存网站快照,以下代码解决:
如果你想禁止所有搜索引擎保存你网页的快照,那么代码如下:
一些常用的代码组合:
:这个页面可以被抓取,其他链接可以沿着这个页面编入索引。
:不允许抓取此页面,但您可以抓取此页面上的其他链接并将其编入索引。
:您可以抓取此页面,但不允许抓取此页面上的其他链接并将其编入索引。
:您不得抓取此页面,也不得抓取此页面上的其他链接并将其编入索引。