3.百度spider介绍5.只需两步,正确识别百度蜘蛛
优采云 发布时间: 2021-08-18 18:033.百度spider介绍5.只需两步,正确识别百度蜘蛛
我最近一直在看与 SEO 相关的材料。我比较好奇的是百度蜘蛛是如何抓取网站内容的?我在网上找了一圈,发现都是从百度搜索学院文章复制过来的:
1.搜索引擎抓取系统概述(一)
2.搜索引擎抓取系统概述(二)
3.搜索引擎检索系统概述
4.百度蜘蛛介绍
5.如何识别百度蜘蛛
6.只需两步即可正确识别百度蜘蛛
网上阅读次数最多的一句话总结是:百度蜘蛛#一、攀取、#二、Storage、#三、preprocessing、#四、indexing、#五、ranking。这种描述问题不大,但也无济于事。我只想知道百度蜘蛛是怎么来我的网站爬取内容的,爬取的顺序,爬取的频率?
第一个一、web蜘蛛怎么会来我的网站;
网上也有很多关于这个问题的讨论。总结是:1、指向我自己网站的外链; 2、到站长平台提交网站上url; 3、sitemap 文件和网站主页链接。关于第一点和第二点,网上有很多相关的说明和实践指南,这里不再赘述。我想谈谈我对第3点的理解。首先,我必须为我的站点创建一个站点地图文件,并且该文件必须放在网站root目录下,并且必须可以在没有权限控制的情况下正常访问。具体的文档创建请参考各个搜索引擎的指南(如:)。还要注意此文件的 URL 和更新率。我拿一些我自己的文件来解释一下:
https://www.onekbit.com/adminUserAction/toIndex.do
2018-12-23
weekly
1.0
https://www.onekbit.com/FrontPages/systemMgt/aboutus.jsp
2018-12-23
weekly
0.8
https://www.onekbit.com/ViewBlog/toBlogIndex.do
2018-12-23
hourly
1.0
https://www.onekbit.com/ViewBlog/blog/BID20181223100027
2018-12-23
hourly
1.0
这里我选择了几个有代表性的网址来展示。我的初始 URL 很长,收录很多参数。我放到xml文件里会报错,后面都会优化成这个简单的连接。每天继续写更多有实用价值的原创文章,经常更新这个文件。
关于此文件的更新,需要多加注意观察你的网站上百度访问日志:
123.125.71.38 - - [23/Dec/2018:21:18:36 +0800] "GET /Sitemap.xml HTTP/1.1" 304 3673
这是我网站百度蜘蛛的单行访问记录。请注意,其中的 304 代码表示: 304 未修改 — 文档未按预期进行修改。如果你每天得到的是304,那么对于蜘蛛来说,你没有任何信息可以得到它。自然,它的爬行速度会越来越低,最后也不会来。所以一定要定时定量的更新网站原创,让蜘蛛每次都能把信息抢回来,让蜘蛛经常来。最后一个小点是网站内部链接必须向各个方向延伸,这样蜘蛛才能得到更多的链接给你网站。
第一个@二、网络蜘蛛到网站爬取的顺序
网络蜘蛛在网站目录中访问的第一个文件应该是robots.txt。一般情况下,应该根据这个文件是否存在而定。如果不是,则表示整个网站都可以爬取。爬取取决于文件中的具体限制,这是正常搜索引擎的规则。至于访问robots.txt后应该访问的第二个是主页还是sitemap文件,这个网上说法有点争议,但我倾向于认为访问的是第二个sitemap文件。我会用我的网站蜘蛛访问日志的最后一段来侧面证明。 :
66.249.64.136 - - [22/Dec/2018:04:10:05 +0800] "GET /robots.txt HTTP/1.1" 404 793
66.249.64.140 - - [22/Dec/2018:04:10:06 +0800] "GET /Sitemap.xml HTTP/1.1" 200 3253
66.249.64.136 - - [22/Dec/2018:04:10:38 +0800] "GET /ViewBlog/blog/BID20181204100011 HTTP/1.1" 200 4331
66.249.64.136 - - [22/Dec/2018:04:10:48 +0800] "GET /ViewBlog/blog/BID20181210100016 HTTP/1.1" 200 4258
66.249.64.138 - - [22/Dec/2018:04:11:02 +0800] "GET /ViewBlog/blog/BID20181213100019 HTTP/1.1" 200 3696
66.249.64.138 - - [22/Dec/2018:04:11:39 +0800] "GET /ViewBlog/blog/BID20181207100014 HTTP/1.1" 200 3595
66.249.64.140 - - [22/Dec/2018:04:12:02 +0800] "GET /ViewBlog/blog/BID20181203100010 HTTP/1.1" 200 26710
66.249.64.138 - - [22/Dec/2018:04:15:14 +0800] "GET /adminUserAction/toIndex.do HTTP/1.1" 200 32040
我用的是nslookup 66.249.64.136 这个IP:
nslookup 命令的结果
从日志来看,第一次访问是robots.txt文件,第二次是站点地图文件,第三次是这个站点地图上新的和改变的url,第四次似乎是通过主页。从蜘蛛的IP来看,我猜是一种专门用来获取网页链接的,另一种是专门用来抓取网页内容的。百度站长里面有一张图,描述了百度蜘蛛的工作流程:
也可以看出是先获取url再读取内容。
@三、web 蜘蛛爬行到网站 的频率
其实,与网络蜘蛛对网站的爬取频率有关的因素上面已经说了。我觉得最重要的是定期更新我在网站网站上的原创内容,提供网站topic相关信息的质量。二是多做导入链接的工作。