谷歌抓取网页视频教程(如果您不想让您的网站被搜索引擎爬虫抓取，可以通过robots.txt文件来屏蔽)

优采云发布时间: 2022-03-12 13:18

　　如果您不希望您的网站被搜索引擎爬虫抓取，您可以通过 robots.txt 文件或 .htaccess 文件来阻止它。有关详细信息，请参阅以下教程。

　　方法一、通过Robots协议robots.txt文件屏蔽搜索引擎

　　Robots Protocol（也称为Crawler Protocol、Robots Protocol等），全称是“Robots Exclusion Protocol”，网站告诉搜索引擎哪些页面可以被爬取，哪些页面可以通过robots.txt协议文件不要爬行。当搜索引擎蜘蛛访问一个站点时，它会首先检查该站点的根目录中是否存在 robots.txt 文件。如果存在，搜索机器人会根据文件内容判断访问范围；如果该文件不存在，所有搜索蜘蛛将能够访问网站上没有密码保护的所有页面。因此，如果我们不想让搜索引擎爬取网站，我们可以通过robots.txt来屏蔽搜索引擎蜘蛛。robots.txt的具体用法请参考百度百科词条“robots.txt”。

　　方法二、通过.htaccess文件屏蔽搜索引擎

　　每个搜索引擎的爬虫都有自己的User-Agent，通过User-Agent告诉别人自己的身份信息。因此，我们可以通过.htaccess文件来阻止某个（某些）User-Agent的访问，从而实现对某个（某些）User-Agent的屏蔽。（一些）搜索引擎爬虫爬取网站。代码显示如下：

　　代码示例1：直接告诉爬虫网站服务器出现503错误

　　#阻止Bing和MSN爬虫，告诉爬虫有503错误

　　ErrorDocument 503“系统正在进行维护”

　　重写引擎开启

　　RewriteCond %{HTTP_USER_AGENT} (bingbot|msn) [NC]

　　重写规则 .* - [R=503,L]

　　代码示例2：告诉爬虫网站重定向到一个新的URL（让爬虫在新的URL上爬取网站）

　　#屏蔽百度、谷歌、搜搜的爬虫，告诉爬虫网站重定向到

　　重写引擎开启

　　RewriteCond %{HTTP_USER_AGENT} (baiduspider|googlebot|soso) [NC]

　　重写规则 ^(.*)$ [R=301,L]

　　上面的代码示例1和示例2都可以使用，可以根据自己的需要选择（如果只是暂时阻塞，使用示例1的代码；如果网站已经转入新的URL，就用例子2的代码，记得把例子2的代码修改成你的网站的新URL），把代码复制到你的网站@根目录下的.htaccess文件中>。

　　上面的示例代码只列出了几种常见搜索引擎的 User-Agent。如果要屏蔽更多的搜索引擎，可以先在网上搜索一下那些搜索引擎的User-Agent是什么，然后在代码中RewriteCond，在括号后面加上你要屏蔽的搜索引擎的User-Agent即可%{HTTP_USER_AGENT} 行。

0

2022-03-12

谷歌抓取网页视频教程

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

谷歌抓取网页视频教程(如果您不想让您的网站被搜索引擎爬虫抓取，可以通过robots.txt文件来屏蔽)

0 个评论

发起人

AI时代内容工厂

谷歌抓取网页视频教程(如果您不想让您的网站被搜索引擎爬虫抓取，可以通过robots.txt文件来屏蔽)

0 个评论

发起人

相关问题