谷歌抓取网页视频教程(如果您不想让您的网站被搜索引擎爬虫抓取,可以通过robots.txt文件来屏蔽)

优采云 发布时间: 2022-03-12 13:18

  谷歌抓取网页视频教程(如果您不想让您的网站被搜索引擎爬虫抓取,可以通过robots.txt文件来屏蔽)

  如果您不希望您的 网站 被搜索引擎爬虫抓取,您可以通过 robots.txt 文件或 .htaccess 文件来阻止它。有关详细信息,请参阅以下教程。

  方法一、通过Robots协议robots.txt文件屏蔽搜索引擎

  Robots Protocol(也称为Crawler Protocol、Robots Protocol等),全称是“Robots Exclusion Protocol”,网站告诉搜索引擎哪些页面可以被爬取,哪些页面可以通过robots.txt协议文件不要爬行。当搜索引擎蜘蛛访问一个站点时,它会首先检查该站点的根目录中是否存在 robots.txt 文件。如果存在,搜索机器人会根据文件内容判断访问范围;如果该文件不存在,所有搜索蜘蛛将能够访问 网站 上没有密码保护的所有页面。因此,如果我们不想让搜索引擎爬取网站,我们可以通过robots.txt来屏蔽搜索引擎蜘蛛。robots.txt的具体用法请参考百度百科词条“robots.txt”。

  方法二、通过.htaccess文件屏蔽搜索引擎

  每个搜索引擎的爬虫都有自己的User-Agent,通过User-Agent告诉别人自己的身份信息。因此,我们可以通过.htaccess文件来阻止某个(某些)User-Agent的访问,从而实现对某个(某些)User-Agent的屏蔽。(一些)搜索引擎爬虫爬取网站。代码显示如下:

  代码示例1:直接告诉爬虫网站服务器出现503错误

  #阻止Bing和MSN爬虫,告诉爬虫有503错误

  ErrorDocument 503“系统正在进行维护”

  重写引擎开启

  RewriteCond %{HTTP_USER_AGENT} (bingbot|msn) [NC]

  重写规则 .* - [R=503,L]

  代码示例2:告诉爬虫网站重定向到一个新的URL(让爬虫在新的URL上爬取网站)

  #屏蔽百度、谷歌、搜搜的爬虫,告诉爬虫网站重定向到

  重写引擎开启

  RewriteCond %{HTTP_USER_AGENT} (baiduspider|googlebot|soso) [NC]

  重写规则 ^(.*)$ [R=301,L]

  上面的代码示例1和示例2都可以使用,可以根据自己的需要选择(如果只是暂时阻塞,使用示例1的代码;如果网站已经转入新的URL,就用例子2的代码,记得把例子2的代码修改成你的网站的新URL),把代码复制到你的网站@根目录下的.htaccess文件中>。

  上面的示例代码只列出了几种常见搜索引擎的 User-Agent。如果要屏蔽更多的搜索引擎,可以先在网上搜索一下那些搜索引擎的User-Agent是什么,然后在代码中RewriteCond,在括号后面加上你要屏蔽的搜索引擎的User-Agent即可%{HTTP_USER_AGENT} 行。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线