php抓取网页(robots写法大全和robots.txt.语法的作用!)
优采云 发布时间: 2022-02-02 14:13php抓取网页(robots写法大全和robots.txt.语法的作用!)
robots.txt的写作作用和robots.txt的语法
1 如果允许所有搜索引擎访问网站的所有部分,我们可以创建一个名为robots.txt的空白文本文档,并将其放在网站的根目录下。
robots.txt 的写法如下:
用户代理: *
不允许:
或者
用户代理: *
允许: /
2 如果我们阻止所有搜索引擎访问 网站 的所有部分
robots.txt 的写法如下:
用户代理: *
不允许: /
3 如果我们需要抓取某个搜索引擎,比如百度,禁止百度索引我们的网站
robots.txt 的写法如下:
用户代理:百度蜘蛛
不允许: /
4 如果我们禁止谷歌索引我们的网站,其实和例子3一样,就是User-agent:头文件的spider名字改成谷歌的Googlebot
只是
robots.txt 的写法如下:
用户代理:Googlebot
不允许: /
5 如果我们禁止除 Google 以外的所有搜索引擎索引我们的 网站
robots.txt 的写法如下:
用户代理:Googlebot
不允许:
用户代理: *
不允许: /
6 如果我们禁止除百度以外的所有搜索引擎索引我们的网站
robots.txt 的写法如下:
用户代理:百度蜘蛛
不允许:
用户代理: *
不允许: /
7 如果我们需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
robots.txt 的写法如下:
用户代理: *
禁止:/css/
禁止:/admin/
禁止:/图像/
8 如果我们允许蜘蛛访问我们的 网站 目录之一中的某些 URL
robots.txt 的写法如下:
用户代理: *
允许:/css/my
允许:/admin/html
允许:/图像/索引
禁止:/css/
禁止:/admin/
禁止:/图像/
9 我们会在网站的一些robots.txt中看到很多Disallow或Allow的符号,比如问号、星号等。如果使用“”,主要是限制访问一个域名一个后缀并禁止访问/html/目录(包括子目录)中所有以“.htm”为后缀的URL。
robots.txt 的写法如下:
用户代理: *
禁止:/html/.htm
10 如果我们使用“
不允许: /
11 如果我们禁止索引网站中的所有动态页面(这里限制带有“?”的域名,如index.asp?id=1)
robots.txt 的写法如下:
用户代理: *
不允许: /?
有时候,为了节省服务器资源,我们需要禁止各种搜索引擎对我们网站上的图片进行索引。这里的方法是使用“Disallow: /images/”直接屏蔽该文件夹。也可以采取直接屏蔽图片后缀名的方法。
例 12
如果我们禁止谷歌搜索引擎抓取我们网站上的所有图片(如果您的网站使用了其他后缀的图片名称,您也可以直接在此处添加)
robots.txt 的写法如下:
用户代理:Googlebot
禁止:.jpg
禁止:.gif
禁止:.bmp
禁止:.jpeg
禁止:.png
14 除了百度和谷歌,禁止其他搜索引擎爬取你的网站图片
(注意,为了方便大家查看,使用了一种比较笨的方法——单独定义单个搜索引擎。)
robots.txt 的写法如下:
用户代理:百度蜘蛛
允许:.jpeg
允许:.png
用户代理:Googlebot
允许:.jpeg
允许:.png
用户代理: *
禁止:.jpg
禁止:.gif
禁止:.bmp$
15 只允许百度抓取网站上的“JPG”格式文件
(其他搜索引擎的方法与此相同,只是修改搜索引擎的蜘蛛名称)
robots.txt 的写法如下:
用户代理:百度蜘蛛
允许:.jpg
禁止:.gif
禁止:.bmp
17 如果?表示会话 ID,您可以排除收录该 ID 的所有网址,以确保 Googlebot 不会抓取重复网页。但是,以 ? 结尾的 URL 可能是您要收录的页面版本。在这种情况下,Vaughan 可以与 Allow 指令一起使用。
robots.txt 的写法如下:
用户代理:*
允许:/*?
一行将允许任何以 ? 结尾的 URL (具体来说,它将允许任何以您的域名开头的 URL,后跟任何字符串,后跟问号 (?),问号后面不带任何字符)。
18 如果我们想禁止搜索引擎访问某些目录或某些URL,可以截取部分名称
robots.txt 的写法如下:
用户代理:*
禁止:/plus/feedback.php?
以上内容供大家参考。