3.百度spider介绍5.只需两步，正确识别百度蜘蛛

优采云发布时间: 2021-08-18 18:03

　　我最近一直在看与 SEO 相关的材料。我比较好奇的是百度蜘蛛是如何抓取网站内容的？我在网上找了一圈，发现都是从百度搜索学院文章复制过来的：

　　1.搜索引擎抓取系统概述（一）

　　2.搜索引擎抓取系统概述（二）

　　3.搜索引擎检索系统概述

　　4.百度蜘蛛介绍

　　5.如何识别百度蜘蛛

　　6.只需两步即可正确识别百度蜘蛛

　　网上阅读次数最多的一句话总结是：百度蜘蛛#一、攀取、#二、Storage、#三、preprocessing、#四、indexing、#五、ranking。这种描述问题不大，但也无济于事。我只想知道百度蜘蛛是怎么来我的网站爬取内容的，爬取的顺序，爬取的频率？

　　第一个一、web蜘蛛怎么会来我的网站；

　　网上也有很多关于这个问题的讨论。总结是：1、指向我自己网站的外链； 2、到站长平台提交网站上url； 3、sitemap 文件和网站主页链接。关于第一点和第二点，网上有很多相关的说明和实践指南，这里不再赘述。我想谈谈我对第3点的理解。首先，我必须为我的站点创建一个站点地图文件，并且该文件必须放在网站root目录下，并且必须可以在没有权限控制的情况下正常访问。具体的文档创建请参考各个搜索引擎的指南（如：）。还要注意此文件的 URL 和更新率。我拿一些我自己的文件来解释一下：

https://www.onekbit.com/adminUserAction/toIndex.do

2018-12-23

weekly

1.0

https://www.onekbit.com/FrontPages/systemMgt/aboutus.jsp

2018-12-23

weekly

0.8

https://www.onekbit.com/ViewBlog/toBlogIndex.do

2018-12-23

hourly

1.0

https://www.onekbit.com/ViewBlog/blog/BID20181223100027

2018-12-23

hourly

1.0

　　这里我选择了几个有代表性的网址来展示。我的初始 URL 很长，收录很多参数。我放到xml文件里会报错，后面都会优化成这个简单的连接。每天继续写更多有实用价值的原创文章，经常更新这个文件。

　　关于此文件的更新，需要多加注意观察你的网站上百度访问日志：

　　123.125.71.38 - - [23/Dec/2018:21:18:36 +0800] "GET /Sitemap.xml HTTP/1.1" 304 3673

　　这是我网站百度蜘蛛的单行访问记录。请注意，其中的 304 代码表示： 304 未修改 — 文档未按预期进行修改。如果你每天得到的是304，那么对于蜘蛛来说，你没有任何信息可以得到它。自然，它的爬行速度会越来越低，最后也不会来。所以一定要定时定量的更新网站原创，让蜘蛛每次都能把信息抢回来，让蜘蛛经常来。最后一个小点是网站内部链接必须向各个方向延伸，这样蜘蛛才能得到更多的链接给你网站。

　　第一个@二、网络蜘蛛到网站爬取的顺序

　　网络蜘蛛在网站目录中访问的第一个文件应该是robots.txt。一般情况下，应该根据这个文件是否存在而定。如果不是，则表示整个网站都可以爬取。爬取取决于文件中的具体限制，这是正常搜索引擎的规则。至于访问robots.txt后应该访问的第二个是主页还是sitemap文件，这个网上说法有点争议，但我倾向于认为访问的是第二个sitemap文件。我会用我的网站蜘蛛访问日志的最后一段来侧面证明。 :

　　66.249.64.136 - - [22/Dec/2018:04:10:05 +0800] "GET /robots.txt HTTP/1.1" 404 793

66.249.64.140 - - [22/Dec/2018:04:10:06 +0800] "GET /Sitemap.xml HTTP/1.1" 200 3253

66.249.64.136 - - [22/Dec/2018:04:10:38 +0800] "GET /ViewBlog/blog/BID20181204100011 HTTP/1.1" 200 4331

66.249.64.136 - - [22/Dec/2018:04:10:48 +0800] "GET /ViewBlog/blog/BID20181210100016 HTTP/1.1" 200 4258

66.249.64.138 - - [22/Dec/2018:04:11:02 +0800] "GET /ViewBlog/blog/BID20181213100019 HTTP/1.1" 200 3696

66.249.64.138 - - [22/Dec/2018:04:11:39 +0800] "GET /ViewBlog/blog/BID20181207100014 HTTP/1.1" 200 3595

66.249.64.140 - - [22/Dec/2018:04:12:02 +0800] "GET /ViewBlog/blog/BID20181203100010 HTTP/1.1" 200 26710

66.249.64.138 - - [22/Dec/2018:04:15:14 +0800] "GET /adminUserAction/toIndex.do HTTP/1.1" 200 32040

　　我用的是nslookup 66.249.64.136 这个IP：

　　nslookup 命令的结果

　　从日志来看，第一次访问是robots.txt文件，第二次是站点地图文件，第三次是这个站点地图上新的和改变的url，第四次似乎是通过主页。从蜘蛛的IP来看，我猜是一种专门用来获取网页链接的，另一种是专门用来抓取网页内容的。百度站长里面有一张图，描述了百度蜘蛛的工作流程：

　　也可以看出是先获取url再读取内容。

　　@三、web 蜘蛛爬行到网站的频率

　　其实，与网络蜘蛛对网站的爬取频率有关的因素上面已经说了。我觉得最重要的是定期更新我在网站网站上的原创内容，提供网站topic相关信息的质量。二是多做导入链接的工作。

0

2021-08-18

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

3.百度spider介绍5.只需两步，正确识别百度蜘蛛

0 个评论

发起人