php抓取网页(robots写法大全和robots.txt.语法的作用！)

优采云发布时间: 2022-02-02 14:13

　　robots.txt的写作作用和robots.txt的语法

　　1 如果允许所有搜索引擎访问网站的所有部分，我们可以创建一个名为robots.txt的空白文本文档，并将其放在网站的根目录下。

　　robots.txt 的写法如下：

　　用户代理： *

　　不允许：

　　或者

　　用户代理： *

　　允许： /

　　2 如果我们阻止所有搜索引擎访问网站的所有部分

　　robots.txt 的写法如下：

　　用户代理： *

　　不允许： /

　　3 如果我们需要抓取某个搜索引擎，比如百度，禁止百度索引我们的网站

　　robots.txt 的写法如下：

　　用户代理：百度蜘蛛

　　不允许： /

　　4 如果我们禁止谷歌索引我们的网站，其实和例子3一样，就是User-agent：头文件的spider名字改成谷歌的Googlebot

　　只是

　　robots.txt 的写法如下：

　　用户代理：Googlebot

　　不允许： /

　　5 如果我们禁止除 Google 以外的所有搜索引擎索引我们的网站

　　robots.txt 的写法如下：

　　用户代理：Googlebot

　　不允许：

　　用户代理： *

　　不允许： /

　　6 如果我们禁止除百度以外的所有搜索引擎索引我们的网站

　　robots.txt 的写法如下：

　　用户代理：百度蜘蛛

　　不允许：

　　用户代理： *

　　不允许： /

　　7 如果我们需要禁止蜘蛛访问某个目录，比如禁止admin、css、images等目录被索引

　　robots.txt 的写法如下：

　　用户代理： *

　　禁止：/css/

　　禁止：/admin/

　　禁止：/图像/

　　8 如果我们允许蜘蛛访问我们的网站目录之一中的某些 URL

　　robots.txt 的写法如下：

　　用户代理： *

　　允许：/css/my

　　允许：/admin/html

　　允许：/图像/索引

　　禁止：/css/

　　禁止：/admin/

　　禁止：/图像/

　　9 我们会在网站的一些robots.txt中看到很多Disallow或Allow的符号，比如问号、星号等。如果使用“”，主要是限制访问一个域名一个后缀并禁止访问/html/目录（包括子目录）中所有以“.htm”为后缀的URL。

　　robots.txt 的写法如下：

　　用户代理： *

　　禁止：/html/.htm

　　10 如果我们使用“

　　不允许： /

　　11 如果我们禁止索引网站中的所有动态页面（这里限制带有“？”的域名，如index.asp?id=1）

　　robots.txt 的写法如下：

　　用户代理： *

　　不允许： /？

　　有时候，为了节省服务器资源，我们需要禁止各种搜索引擎对我们网站上的图片进行索引。这里的方法是使用“Disallow: /images/”直接屏蔽该文件夹。也可以采取直接屏蔽图片后缀名的方法。

　　例 12

　　如果我们禁止谷歌搜索引擎抓取我们网站上的所有图片（如果您的网站使用了其他后缀的图片名称，您也可以直接在此处添加）

　　robots.txt 的写法如下：

　　用户代理：Googlebot

　　禁止：.jpg

　　禁止：.gif

　　禁止：.bmp

　　禁止：.jpeg

　　禁止：.png

　　14 除了百度和谷歌，禁止其他搜索引擎爬取你的网站图片

　　（注意，为了方便大家查看，使用了一种比较笨的方法——单独定义单个搜索引擎。）

　　robots.txt 的写法如下：

　　用户代理：百度蜘蛛

　　允许：.jpeg

　　允许：.png

　　用户代理：Googlebot

　　允许：.jpeg

　　允许：.png

　　用户代理： *

　　禁止：.jpg

　　禁止：.gif

　　禁止：.bmp$

　　15 只允许百度抓取网站上的“JPG”格式文件

　　（其他搜索引擎的方法与此相同，只是修改搜索引擎的蜘蛛名称）

　　robots.txt 的写法如下：

　　用户代理：百度蜘蛛

　　允许：.jpg

　　禁止：.gif

　　禁止：.bmp

　　17 如果？表示会话 ID，您可以排除收录该 ID 的所有网址，以确保 Googlebot 不会抓取重复网页。但是，以 ? 结尾的 URL 可能是您要收录的页面版本。在这种情况下，Vaughan 可以与 Allow 指令一起使用。

　　robots.txt 的写法如下：

　　用户代理：*

　　允许：/*？

　　一行将允许任何以 ? 结尾的 URL （具体来说，它将允许任何以您的域名开头的 URL，后跟任何字符串，后跟问号 (?)，问号后面不带任何字符）。

　　18 如果我们想禁止搜索引擎访问某些目录或某些URL，可以截取部分名称

　　robots.txt 的写法如下：

　　用户代理：*

　　禁止：/plus/feedback.php？

　　以上内容供大家参考。

0

2022-02-02

php抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页(robots写法大全和robots.txt.语法的作用！)

0 个评论

发起人