网页爬虫抓取百度图片(如何只禁止百度搜索引擎抓取收录网页,注意慎用如上代码)
优采云 发布时间: 2021-12-10 01:11网页爬虫抓取百度图片(如何只禁止百度搜索引擎抓取收录网页,注意慎用如上代码)
第一种方法,robots.txt
搜索引擎默认遵循 robots.txt 协议。创建robots.txt文本文件,放在网站的根目录下。编辑代码如下:
用户代理: *
不允许: /
通过上面的代码可以告诉搜索引擎不要抢收录this网站,注意使用上面的代码:这将禁止所有搜索引擎访问网站的任何部分。
如何只禁止百度搜索引擎收录抓取网页
1、编辑robots.txt文件,设计标志为:
用户代理:百度蜘蛛
不允许: /
上述robots文件将禁止所有来自百度的抓取。
这里说一下百度的user-agent,什么是百度蜘蛛的user-agent?
百度产品使用不同的用户代理:
产品名称对应于用户代理
无线搜索百度蜘蛛
图片搜索 百度蜘蛛-p_w_picpath
视频搜索 百度蜘蛛-视频
新闻搜索 百度蜘蛛-新闻
百度采集 百度蜘蛛-最爱
百度联盟baiduspider-cpro
商业搜索Baiduspider-ads
网页和其他搜索百度蜘蛛
您可以根据每个产品的不同用户代理设置不同的抓取规则。以下robots实现禁止所有来自百度的抓取,但允许图片搜索抓取/p_w_picpath/目录:
用户代理:百度蜘蛛
不允许: /
用户代理:Baiduspider-p_w_picpath
允许:/p_w_picpath/
请注意:Baiduspider-cpro 和Baiduspider-ads 抓取的网页不会被编入索引,只会执行与客户约定的操作。因此,如果不遵守机器人协议,只能联系百度人员解决。
如何禁止只有谷歌搜索引擎收录抓取网页,方法如下:
编辑robots.txt文件,设计标志为:
用户代理:googlebot
不允许: /
编辑 robots.txt 文件
搜索引擎默认遵循robots.txt协议
robots.txt文件放在网站的根目录下。
例如,搜索引擎访问网站时,首先会检查网站的根目录下是否存在robots.txt文件。如果搜索引擎找到这个文件,它会根据它来确定它爬取的权限范围。
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被协议限制。对于这个文件,至少有一个 User-agent 记录。如果该项的值设置为*,则该协议对任何机器人都有效。在“robots.txt”文件中,只能有“User-agent:*”这样的一条记录。
不允许:
此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow:/help”不允许搜索引擎访问/help.html和/help/index.html,而“Disallow:/help/”允许机器人访问/help.html,但不允许访问/help/指数。.html。如果任何 Disallow 记录为空,则表示允许访问 网站 的所有部分。“/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”是一个空文件,这个网站 对所有搜索引擎机器人都是开放的。
以下是 robots.txt 用法的几个示例:
用户代理: *
不允许: /
禁止所有搜索引擎访问网站的所有部分
用户代理:百度蜘蛛
不允许: /
禁止百度收录所有站
用户代理:Googlebot
不允许: /
禁止谷歌收录所有站
用户代理:Googlebot
不允许:
用户代理: *
不允许: /
禁止除谷歌以外的所有搜索引擎收录全站
用户代理:百度蜘蛛
不允许:
用户代理: *
不允许: /
禁止百度以外的所有搜索引擎收录全站
用户代理: *
禁止:/css/
禁止:/管理员/
防止所有搜索引擎访问某个目录
(比如根目录下的admin和css是禁止的)
二、网页编码方式
在 网站 主页代码之间添加代码。此标签禁止搜索引擎抓取 网站 并显示网页快照。
在网站首页代码之间,添加禁止百度搜索引擎抓取网站并显示网页快照。
在网站首页代码之间添加,禁止谷歌搜索引擎抓取网站,显示网页快照。
另外,当我们的需求很奇怪的时候,比如以下几种情况:
1. 网站 添加了Robots.txt,百度可以搜索到吗?
因为搜索引擎索引数据库的更新需要时间。虽然百度蜘蛛已经停止访问您在网站上的网页,但清除百度搜索引擎数据库中已建立网页的索引信息可能需要几个月的时间。另请检查您的机器人是否配置正确。如果收录急需您的拒绝,您也可以通过投诉平台反馈请求处理。
2. 希望网站的内容能被百度收录,但快照不会被保存。我该怎么办?
百度蜘蛛符合互联网元机器人协议。您可以使用网页元设置,让百度只显示网页索引,而不在搜索结果中显示网页快照。和robots的更新一样,更新搜索引擎索引库也是需要时间的,所以虽然你已经禁止百度通过网页上的meta在搜索结果中显示网页快照,但是如果百度已经建立了网页索引搜索引擎数据库信息,可能需要两到四个星期才能在线生效。
想被百度收录,但不保存网站快照,以下代码解决:
如果你想禁止所有搜索引擎保存你网页的快照,那么代码如下:
一些常用的代码组合:
:您可以抓取此页面,并且可以继续索引此页面上的其他链接
:不抓取此页面,但您可以抓取此页面上的其他链接并将其编入索引
:您可以抓取此页面,但不允许抓取此页面上的其他链接并将其编入索引
: 不爬取此页面,也不沿此页面爬行以索引其他链接