嘉兴网站搜索引擎优化(嘉兴seo:百度搜索引擎工作原理系列(百度)系列)
优采云 发布时间: 2022-01-29 16:10嘉兴网站搜索引擎优化(嘉兴seo:百度搜索引擎工作原理系列(百度)系列)
嘉兴seo:百度搜索引擎系列的工作原理转自百度官方,没有过多注释。
今天,小小课堂为大家带来一份百度官方的《百度搜索引擎工作原理七:百度先建重要数据库,哪些网页不能建入索引库的原则》。嘉兴seo希望对大家有所帮助。
一、百度优先建设重要库的原则
百度蜘蛛抓取的页数并不是最重要的,重要的是建了多少页到索引库中,也就是我们常说的“建库”。众所周知,搜索引擎的索引库是分层的。高质量的网页将分配到重要的索引库,普通网页将留在普通库,较差的网页将分配到低级库作为补充资料。目前60%的检索需求只需要调用重要的索引库就可以满足,这就解释了为什么有些网站的收录的高流量并不理想。
那么,哪些页面可以进入优质索引库呢?其实,总的原则是一个:对用户有价值。包括但不仅限于:
1.及时有价值的页面
在这里,及时性和价值并列,两者缺一不可。有些网站为了生成时间敏感的内容页面做了很多采集的工作,导致一堆毫无价值的页面,百度不想看到。
2. 具有高质量内容的精选页面
专页的内容不一定是完整的原创,也就是可以很好的整合各方的内容,或者加入一些新鲜的内容,比如浏览量和评论,给用户提供更全面的内容。
3. 高价值的原创内容页面
百度将原创定义为花费一定成本,积累大量经验后形成的文章。永远不要再问我们是否 伪原创 是原创。
4.重要的个人页面
这里只是一个例子,科比在新浪微博上开了一个账号,即使他不经常更新,对于百度来说仍然是一个极其重要的页面。
二、哪些页面不能被索引
上面提到的优质网页都进入了索引库,所以其实网上的大部分网站都没有被百度收录列出来。不是百度没找到,而是建库前的筛选过程中被过滤掉了。那么在第一个链接中过滤掉了什么样的网页:
1. 内容重复的网页
百度不需要收录互联网上已有的内容。(嘉兴seo认为这并不是说不能转载。很多转载的文章收录也完好,不要恶意采集,还有网站有 原创 内容是 Can。)
2. 主要内容为空、短的网页
1)有些内容使用了百度蜘蛛无法解析的技术,如JS、AJAX等,虽然用户可以访问丰富的内容,但还是会被搜索引擎抛弃。
2)加载太慢的网页也可能被视为空的短页。请注意,广告加载时间计入网页的总加载时间。
3)很多主体无关紧要的网页即使被抓取回来也会被丢弃在这个链接中。
3.一些作弊页面
以上就是小小娇网为大家带来的内容,转自百度官方《百度搜索引擎工作原则七:百度优先建重要数据库,哪些页面不能建入索引库的原则》。嘉兴seo 谢谢收看。搜索引擎优化培训*敏*感*词*班!