php抓取网页(robots写法大全和robots.txt.语法的作用!)

优采云 发布时间: 2022-02-02 14:13

  php抓取网页(robots写法大全和robots.txt.语法的作用!)

  robots.txt的写作作用和robots.txt的语法

  1 如果允许所有搜索引擎访问网站的所有部分,我们可以创建一个名为robots.txt的空白文本文档,并将其放在网站的根目录下。

  robots.txt 的写法如下:

  用户代理: *

  不允许:

  或者

  用户代理: *

  允许: /

  2 如果我们阻止所有搜索引擎访问 网站 的所有部分

  robots.txt 的写法如下:

  用户代理: *

  不允许: /

  3 如果我们需要抓取某个搜索引擎,比如百度,禁止百度索引我们的网站

  robots.txt 的写法如下:

  用户代理:百度蜘蛛

  不允许: /

  4 如果我们禁止谷歌索引我们的网站,其实和例子3一样,就是User-agent:头文件的spider名字改成谷歌的Googlebot

  只是

  robots.txt 的写法如下:

  用户代理:Googlebot

  不允许: /

  5 如果我们禁止除 Google 以外的所有搜索引擎索引我们的 网站

  robots.txt 的写法如下:

  用户代理:Googlebot

  不允许:

  用户代理: *

  不允许: /

  6 如果我们禁止除百度以外的所有搜索引擎索引我们的网站

  robots.txt 的写法如下:

  用户代理:百度蜘蛛

  不允许:

  用户代理: *

  不允许: /

  7 如果我们需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引

  robots.txt 的写法如下:

  用户代理: *

  禁止:/css/

  禁止:/admin/

  禁止:/图像/

  8 如果我们允许蜘蛛访问我们的 网站 目录之一中的某些 URL

  robots.txt 的写法如下:

  用户代理: *

  允许:/css/my

  允许:/admin/html

  允许:/图像/索引

  禁止:/css/

  禁止:/admin/

  禁止:/图像/

  9 我们会在网站的一些robots.txt中看到很多Disallow或Allow的符号,比如问号、星号等。如果使用“”,主要是限制访问一个域名一个后缀并禁止访问/html/目录(包括子目录)中所有以“.htm”为后缀的URL。

  robots.txt 的写法如下:

  用户代理: *

  禁止:/html/.htm

  10 如果我们使用“

  

  不允许: /

  11 如果我们禁止索引网站中的所有动态页面(这里限制带有“?”的域名,如index.asp?id=1)

  robots.txt 的写法如下:

  用户代理: *

  不允许: /?

  有时候,为了节省服务器资源,我们需要禁止各种搜索引擎对我们网站上的图片进行索引。这里的方法是使用“Disallow: /images/”直接屏蔽该文件夹。也可以采取直接屏蔽图片后缀名的方法。

  例 12

  如果我们禁止谷歌搜索引擎抓取我们网站上的所有图片(如果您的网站使用了其他后缀的图片名称,您也可以直接在此处添加)

  robots.txt 的写法如下:

  用户代理:Googlebot

  禁止:.jpg

  

  禁止:.gif

  

  禁止:.bmp

  

  禁止:.jpeg

  

  禁止:.png

  

  14 除了百度和谷歌,禁止其他搜索引擎爬取你的网站图片

  (注意,为了方便大家查看,使用了一种比较笨的方法——单独定义单个搜索引擎。)

  robots.txt 的写法如下:

  用户代理:百度蜘蛛

  允许:.jpeg

  

  允许:.png

  

  用户代理:Googlebot

  允许:.jpeg

  

  允许:.png

  

  用户代理: *

  禁止:.jpg

  

  禁止:.gif

  

  禁止:.bmp$

  15 只允许百度抓取网站上的“JPG”格式文件

  (其他搜索引擎的方法与此相同,只是修改搜索引擎的蜘蛛名称)

  robots.txt 的写法如下:

  用户代理:百度蜘蛛

  允许:.jpg

  

  禁止:.gif

  

  禁止:.bmp

  

  17 如果?表示会话 ID,您可以排除收录该 ID 的所有网址,以确保 Googlebot 不会抓取重复网页。但是,以 ? 结尾的 URL 可能是您要收录的页面版本。在这种情况下,Vaughan 可以与 Allow 指令一起使用。

  robots.txt 的写法如下:

  用户代理:*

  允许:/*?

  

  一行将允许任何以 ? 结尾的 URL (具体来说,它将允许任何以您的域名开头的 URL,后跟任何字符串,后跟问号 (?),问号后面不带任何字符)。

  18 如果我们想禁止搜索引擎访问某些目录或某些URL,可以截取部分名称

  robots.txt 的写法如下:

  用户代理:*

  禁止:/plus/feedback.php?

  以上内容供大家参考。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线