百度搜索引擎优化原理(便是百度搜索引擎决定搜索结果排序时考虑的六大原则(图))
优采云 发布时间: 2021-10-14 00:23百度搜索引擎优化原理(便是百度搜索引擎决定搜索结果排序时考虑的六大原则(图))
[文章摘要] 以下是百度搜索引擎在决定搜索结果排名时考虑的六大原则。六项原则的重点是什么?在实际应用中,哪个原理占的比例最大?事实上,这里没有明确的答案。在百度搜索引擎的早期,这些门槛确实是比较固定的。例如,“相关性”可以占整体排名的 70%。但是,随着互联网的不断发展,检索技术的进步,网页数量的爆炸式增长,相关性不再是问题。因此,百度搜索引擎引入了机器学习机制,让程序自动生成计算公式,促进更合理的排名策略。
在谈这个话题之前,我们先来了解一下搜索引擎蜘蛛爬虫系统的工作机制。
上图是蜘蛛爬取系统的基本框架,包括链接存储系统、链接选择系统、dns分析服务系统、爬取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统. 百度蜘蛛通过本系统的配合完成对网页的抓取。
那么百度搜索引擎是用什么指标来判断爬取一个网站的频率的。主要有四个指标:
1.网站更新频率:更新来得快,更新来得慢,直接影响百度蜘蛛的访问频率
2. 网站 更新质量:更新频率增加,刚刚引起了百度蜘蛛的关注。百度蜘蛛对质量有严格的要求。如果网站每天更新的大量内容被百度蜘蛛判定为低质量页面仍然没有意义。
简单介绍一下百度支持的几种返回码:
最常见的 404 代表“未找到”。认为该网页无效,通常会从库中删除。同时,如果蜘蛛在短期内再次找到这个网址,则不会被抓取;
503 代表“服务不可用”。认为是网页暂时无法访问,通常网站暂时关闭,带宽受限等都会造成这种情况。对于返回503状态码的网页,百度蜘蛛不会直接删除网址,会在短时间内多次访问。如果网页已经恢复,则可以正常抓取;如果它继续返回503,则该URL仍然会被认为是一个断开的链接并从库中将其删除。
403代表“Forbidden”,认为该网页当前被禁止。如果是新的url,蜘蛛暂时不会抓取,短时间内会被多次访问;如果是收录url,不会直接删除,短时间内会被访问多次。如果网页访问正常,就会正常抓取;如果仍然禁止访问,则此 url 也将被视为无效链接并从库中删除。
301代表“Moved Permanently”,它认为网页被重定向到新的url。遇到网站迁移、域名更换、网站改版时,建议使用301返回码,并使用站长平台网站改版工具,减少改版带来的网站流量损失。
3、连接性:网站安全稳定,对百度蜘蛛保持开放。经常养百度蜘蛛可不是什么好事
4.站点评价:百度搜索引擎会对每个站点都有一个评价,这个评价会根据站点情况不断变化。是百度搜索引擎对网站的基本评分(不是外界所说的百度权重)。是百度。里面有非常机密的数据。网站评分从不单独使用,会与其他因素和阈值共同影响网站的爬取和排名。
理论上,百度蜘蛛会检索新页面上所有“见过”的链接。那么,面对众多的新链接,百度蜘蛛是根据什么判断哪个更重要呢?两个方面:
一、对用户的价值
1.独特的内容,百度搜索引擎喜欢独特的内容
2、主体突出,不要出现网页主要内容不突出而被搜索引擎误判为未爬取的空白短页
3.内容丰富
4. 广告适当
二、链接的重要性
1.目录级别-浅优先级
2.本站链接的流行度
百度优先建设重要图书馆的原则
众所周知,搜索引擎的索引库是分层的。优质的网页会被分配到重要的索引库,普通的网页会留在普通的图书馆,更糟糕的网页会被分配到低级别的图书馆作为补充资料。目前60%的检索需求只调用重要的索引库就可以满足,这就解释了为什么有些网站的收录量超高,但流量并不理想。
那么,哪些网页可以进入优质索引库呢?其实总的原则是一个:对用户有价值。包括但不仅限于:
1、时效性与价值性页面:在这里,时效性与价值性是平行关系,缺一不可。有的网站为了生成时间敏感的内容页面,做了很多采集的工作,结果是一堆毫无价值的页面,百度不想看到。
2. 优质内容的专题页:专题页的内容可能不完全原创,也就是可以很好的整合各方内容,或者一些新鲜的内容,比如意见、评论,可以为用户添加更丰富、更全面的内容。
3、高价值的原创内容页面:百度将原创定义为文章经过一定的成本和大量的经验形成的。不要再问我们伪原创 是否是原创。
4.重要的个人页面:这里只是一个例子。科比已经在新浪微博上开设了一个账户。即使他不经常更新,对于百度来说,它仍然是一个极其重要的页面。
搜索引擎爬取排序机制(下)
简单来说,这个流程图:网站生成一个页面,被搜索引擎蜘蛛抓取并存入数据库(对应开头的流程图)。程序对该页面进行分析,并使用分词技术构建外部索引。
用户输入关键词进行搜索。百度搜索引擎在排序链接上要做两件事。一是从索引库中提取相关网页,二是根据不同维度对提取的网页进行打分。进行综合排序。“不同维度”包括:
1、相关性:网页内容与用户搜索需求的匹配程度,比如网页中收录的用户查看关键词的次数,这些关键词出现在什么地方;外部网页指向页面使用的锚文本 Wait
2、权限:用户喜欢网站提供的内容,具有一定的权限。相应地,百度搜索引擎也更加相信优质权威网站提供的内容。
3. 时效性:时效性结果是指新出现的网页,该网页带有新鲜的内容。目前,时间敏感的结果在搜索引擎中变得越来越重要。
4、重要性:网页内容与用户检查需求匹配的重要程度或流行程度
5.丰富性:丰富性看似简单,却是一个涵盖面非常广的命题。可以理解为网页内容丰富,完全可以满足用户的需求;既可以满足用户的单一需求,又可以满足用户的扩展需求。
6. 流行度:指网页是否流行。
以上就是百度搜索引擎在决定搜索结果排名时考虑的六大原则。那么六项原则的重点是什么?在实际应用中,哪个原理占的比例最大?事实上,这里没有明确的答案。在百度搜索引擎的早期,这些门槛确实是比较固定的。例如,“相关性”可以占整体排名的 70%。但是,随着互联网的不断发展,检索技术的进步,网页数量的爆炸式增长,相关性不再是问题。因此,百度搜索引擎引入了机器学习机制,让程序自动生成计算公式,促进更合理的排名策略。
外链的作用
1、吸引蜘蛛爬取:虽然百度在挖掘新的好网站、开设多个数据提交门户、避开社交发现渠道等方面下了不少功夫,但超链接仍然是发现收录链接的最重要入口。
2、向搜索引擎传递相关信息:百度除了通过TITLE、页面关键词、H标签等判断网页内容外,还会使用锚文本辅助判断。将图片作为点击入口的超链接,也可以通过alt属性和title标签向百度发送感受。
3、提升排名:百度搜索引擎虽然减少了对超链接的依赖,但对超链接的认可度从未降低,对优质链接、正常链接、垃圾链接、作弊链接制定了更严格的标准。对于作弊链接,除了对链接进行过滤和清理之外,对链接的受益站点也进行一定程度的处罚。因此,百度仍然欢迎高质量的链接。
4. 内容分享与口碑:优质内容被广泛传播,网站可能不会因此获得多少流量,但如果内容足够,也可以建立自己的品牌效应。
(整理自网络)