网站内容抓取(关于百度搜索引擎工作原理知识,有不少站长SEO还没有)
优采云 发布时间: 2022-01-26 04:02网站内容抓取(关于百度搜索引擎工作原理知识,有不少站长SEO还没有)
关于百度搜索引擎的工作原理,很多站长都没有仔细阅读和理解SEO。本文解读Baiduspider爬取系统及建索引的原理,让SEOer对百度蜘蛛的收录建索引有更多了解。学习。
一、蜘蛛抓取系统的基本框架
随着互联网信息的爆炸式增长,如何有效地获取和利用这些信息是搜索引擎工作的首要环节。数据爬取系统作为整个搜索系统的上游,主要负责互联网信息的采集、保存和更新。它像蜘蛛一样在网络中爬行,因此通常被称为“蜘蛛”。比如我们常用的几种常见的搜索引擎蜘蛛叫做:Baiduspdier、Googlebot、搜狗网络蜘蛛等。
蜘蛛爬取系统是搜索引擎数据来源的重要保障。如果把网络理解为一个有向图,那么蜘蛛的工作过程可以认为是对这个有向图的遍历。从一些重要的*敏*感*词*URL开始,通过页面上的超链接关系,不断发现新的URL并进行爬取,尽可能多地爬取有价值的网页。对于百度这样的大型爬虫系统,由于随时都有网页被修改、删除或者新的超链接出现的可能,所以需要保持过去爬虫爬取的页面保持更新,维护一个URL库和Page图书馆。
下图是蜘蛛爬取系统的基本框架图,包括链接存储系统、链接选择系统、dns解析服务系统、爬取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。百度蜘蛛通过本系统的配合完成对互联网页面的爬取。
二、Baiduspider的主要爬取策略类型
上图看似简单,但实际上百度蜘蛛在爬取过程中面临着一个超级复杂的网络环境。为了让系统尽可能多地抢到有价值的资源,保持系统中页面与实际环境的一致性,同时不会给网站的体验带来压力,会设计一个各种复杂的抓取策略。这里有一个简单的介绍:
1. 抓取友好度
海量的互联网资源要求抓取系统在有限的硬件和带宽资源下,尽可能高效地利用带宽,尽可能多地抓取有价值的资源。这就产生了另一个问题,消耗了被逮捕的 网站 的带宽并造成访问压力。如果太大,将直接影响被捕网站的正常用户访问行为。因此,需要在爬取过程中控制爬取压力,以达到在不影响网站的正常用户访问的情况下尽可能多地抓取有价值资源的目的。
通常,最基本的是基于 ip 的压力控制。这是因为如果是基于域名的话,可能会出现一个域名对应多个IP(很多大网站)或者多个域名对应同一个IP(小网站共享 IP)。在实践中,往往根据ip和域名的各种情况进行压力分配控制。同时,站长平台也推出了压力反馈工具。站长可以自己手动调节抓取压力网站。这时候百度蜘蛛会根据站长的要求优先控制抓取压力。
对同一个站点的爬取速度控制一般分为两类:一类是一段时间内的爬取频率;另一种是一段时间内的爬行流量。同一个站点在不同时间的爬取速度会有所不同。例如,在夜深人静、月黑风高的情况下,爬行可能会更快。它还取决于特定的站点类型。主要思想是错开正常的用户访问高峰并不断进行调整。不同的站点也需要不同的爬取率。
3.判断新链接的重要性
在建库链接之前,百度蜘蛛会对页面进行初步的内容分析和链接分析,通过内容分析判断页面是否需要建索引库,通过链接分析发现更多页面,然后爬取更多页面——分析——是否建立图书馆并发现新链接的过程。理论上,百度蜘蛛会把新页面上所有“看到”的链接都爬回来,那么面对众多的新链接,百度蜘蛛如何判断哪个更重要呢?两个方面:
首先,用户的价值内容是独一无二的。百度搜索引擎喜欢独特的内容主体脱颖而出。不要显得网页的主要内容不突出,被搜索引擎误判为空缺的页面。不抓取内容丰富的广告是合适的。二、链接很重要 Degree Directory Hierarchy - 网站内浅优先级链接的流行度
四、百度优先建设重要库的原则
百度蜘蛛抓取的页数并不是最重要的,重要的是建了多少页到索引库中,也就是我们常说的“建库”。众所周知,搜索引擎的索引库是分层的。高质量的网页将分配到重要的索引库,普通网页将留在普通库,较差的网页将分配到低级库作为补充资料。目前60%的检索需求只需要调用重要的索引库就可以满足,这就解释了为什么有些网站的收录的超高流量并不理想。
那么,哪些页面可以进入优质索引库呢?其实,总的原则是一个:对用户有价值。包括但不仅限于:
及时有价值的页面:在这里,及时性和价值并列,缺一不可。有些网站为了生成时间敏感的内容页面做了很多采集的工作,导致一堆毫无价值的页面,百度不想看到。优质内容的特色页:特色页的内容不一定是完全的原创,也就是可以很好的融合各方的内容,或者加入一些新鲜的内容,比如意见、评论等,给予为用户提供更丰富、更全面的内容。高价值的原创内容页面:百度将原创定义为花费一定成本,积累大量经验后形成的文章。永远不要再问我们是否 伪原创 是原创。重要个人页面:这里只是一个例子,科比在新浪微博上开了一个账号,即使他不经常更新,对于百度来说,它仍然是一个非常重要的页面。五、哪些网页不能建入索引库
上面提到的优质网页都进入了索引库,所以其实网上的大部分网站都没有被百度收录列出来。不是百度没找到,而是建库前的筛选过程中被过滤掉了。那么在第一个链接中过滤掉了什么样的网页:
内容重复的网页:百度不需要收录互联网上已有的内容。主体为空且短的网页
3.一些作弊页面