seo教程:搜索引擎优化入门与进阶pdf(外链建设中比较有名的核心算法:PageRank算法、HilltopHit算法)
优采云 发布时间: 2021-10-22 19:11seo教程:搜索引擎优化入门与进阶pdf(外链建设中比较有名的核心算法:PageRank算法、HilltopHit算法)
外链是搜索引擎算法中决定网站权重的重要指标。当用户在搜索框中输入关键字时,搜索引擎会面对大量内容相同的网页。首先要解决的是通过哪些参数来感受页面排名的高低。今天笔者简单介绍一下外链构建中比较著名的核心算法:PageRank算法、Hilltop算法、Direct Hit算法。
第一种算法,PageRank算法
1998 年,Sergey Brin 和 Lawrence Page 提出了 PageRank 算法。该算法根据“许多高质量网页链接的网页一定仍然是高质量网页”的回归关系来确定网页的重要性。该算法认为,网页A到网页B的链接可以看作是网页A对网页B的支持票,根据票数判断网页的重要性。当然,不仅要看票数,还要分析投票页的重要性。页面越重要,投票的评价就越高。根据这种分析,被高度评价的重要页面会被赋予更高的 PageRank 值,它们在搜索结果中的排名也会提高。PageRank 是基于对“
分析:PageRank算法的优势在于它给出了网页在互联网上的重要性的全局排名,并且算法的计算过程可以离线完成,有利于快速响应用户请求。但是,它的缺点在于主题不相关,页面内没有导航链接、广告链接和功能链接的区别。很容易高估广告页面。此外,PageRank 算法的另一个缺点是旧页面排名会高于新页面。页面高,因为一个新页面,即使是一个非常好的页面,也不会有很多链接,除非它是一个站点的子站点。这就是 PageRank 需要多种算法组合的原因。
第二种算法,Hilltop算法
HillTop 是一项对搜索引擎结果进行排序的专利,由 Google 的工程师 Bharat 于 2001 年获得。HillTop算法的指导思想与PageRank相同,即以反向链接的数量和质量来决定搜索结果的排名权重。但是,HillTop 认为,只计算具有相同主题的相关文档的链接对搜索者来说更有价值,即与主题相关的网页之间的链接比与主题无关的链接对权重计算的贡献更大。1999-2000 年,当 Bharat 和其他 Google 开发人员开发这种算法时,他们将此类对主题有影响的文档称为“专家”文档,
Hilltop算法的过程:首先计算出与查询主题最相关的“专家”资源列表;其次,在选定的“专家”中识别相关链接并对其进行跟踪以识别相关网页目标;然后根据非相关性“专家”的数量和相关性的排名将目标指向他们。因此,着陆页的分数反映了最中立的专家对查询主题的集体意见。如果不存在这样的专家池,Hilltop 将不会给出结果。
从Hilltop算法的过程可以看出,该算法主要包括两个方面:搜索专家;目标排序。通过对搜索引擎抓取的网页进行预处理,找出专家页面。对于关键词的查询,先在专家中查找,按排序返回结果。
权威页面是最好的专家指向查询主题的页面。专家也可能是更广泛领域或其他领域主题的专家。专家页面中只有部分链接与该主题相关。因此,将查询主题专家的相关出站链接进行合并,以找到查询主题页面识别度较高的页面。
从排名靠前的匹配专家页面和相关的匹配信息中选择专家页面中超链接的子集。尤其要选择与所有查询相关的链接。根据这些选定的链接,找到它们的目标子集作为与查询主题最相关的网页。该目标子集收录由至少两个非相关专家页面链接到的网页。目标集根据指向他们的专家的综合表现进行排序。
Hilltop在其应用上还存在一些不足。专家页面的搜索和确定在算法中起着关键作用。专家页面的质量决定了算法的准确性;专家页面的质量和公平性在一定程度上难以保证。Hiltop 忽略了大多数非专家页面的影响。在Hiltop的原型系统中,专家页面仅占整个页面的1.79%,并不能完全代表整个互联网。
当 Hiltop 算法无法获得足够多的专家页面子集(少于两个专家页面)时,返回为空,即 Hiltop 适用于细化查询排序,但不能被覆盖。这意味着 Hilltop 可以与页面排序算法结合以提高准确性,并不适合作为独立的页面排序算法。Hilltop根据查询主题从专家页面集合中选择与主题相关的子集,并在线运行,这会影响查询响应时间,就像前面提到的HITS算法一样。随着专家页面集合的增加,算法的可扩展性有其不足之处。
分析:HITS算法的优势在于可以更好地描述互联网的组织特征。由于它只分析互联网的一小部分,它需要更少的迭代、更快的收敛和降低的时间复杂度。
但是HITS算法也存在以下缺点:中心网页之间相互引用以增加其网页评价,当一个网站上的多个网页指向同一个链接,或者一个网页指向另一个网站时您上传多个文件,会导致分数异常上升,从而使您容易受到“垃圾链接”的攻击;网页中有自动生成的链接;
话题漂移。在邻接图中,经常会有与搜索主题无关的链接。如果这些链接也是中心页面或者权威页面,就会造成话题漂移:对于每个不同的查询算法,都需要重新运行才能得到结果。这使得在实时系统中无法使用,因为数千万并发查询的开销太大。
第三种算法,Direct Hit算法
与之前的算法相比,Ask Jeeves 的 Direct Hit 算法是一种注重信息质量和用户反馈的排序方法。它的基本思想是搜索引擎将查询的结果返回给用户,并跟踪用户在搜索结果中的点击。如果返回结果中排名靠前的网页被用户点击,浏览时间较短,用户再次点击其他搜索结果,则可以认为其相关性较差,系统会降低相关性网页的。另一方面,如果网页被用户打开浏览,并且浏览时间较长,则该网页的流行度较高,相应地,系统会增加该网页的相关性。可以看出,在这个方法中,相关度是不断变化的,同一个词在不同的时间被检索到,结果集的排名可能会有所不同。这是一个动态排名。
分析:这个算法的优点是可以节省很多时间,因为用户阅读的是从搜索结果中过滤出来的更符合条件的结果。同时,该算法直接融入用户的反馈信息中,保证页面质量。
但是,统计表明Direct Hit算法只适用于搜索较少的关键词,因为它实际上并没有进行排序,而是一种筛选和提取。搜索数据库很大,关键词很多时候,返回的搜索结果上千,用户无法一一查看。因此,这种方法不能作为主要的排序算法,而是一种很好的辅助排序算法,在很多搜索引擎中仍在使用。
事实上,网页的搜索排名是多种算法综合作用的结果。简单分析一下以上三种算法,Pagerank可以给网站上的所有网页一个重要性排名,但没有针对性和相关性。而现在PR值作弊已经到了普遍的地步,所以PR在页面排名方面的重要性已经大大降低;
Hilltop算法将对广大站长的外链建设起到指导作用。在 Hilltop 算法中,每个领域都会有几个专家页面。如果你搜索相关的关键词,搜索引擎会首先寻找专家页面。等等。
Direct Hit 算法可以作为 Hilltop 和 pagerank 的一个很好的补充。Direct Hit更多的是考虑用户体验的影响,实时更新搜索结果的质量。最能满足搜索用户要求的页面应该是用户。从点击搜索框中的页面链接开始,用户浏览网站超过一定时间,就被认为是结果页面,更符合用户的搜索需求,长期有效点击,页面在搜索引擎中的排名,会有相应的提升。
通过以上三种算法,我们可以了解到,无论是做外链还是网站内容构建,首先需要考虑的是相关性。在外链建设中,一定要努力找到话题相关的、权威性很强的网站、软文、友情链接等等,都可以算是这些网站,支持你,同时关注网站的跳出率和浏览时长,时刻反馈用户数据,对一些关键页面,用户点击率高的页面,做出相关推荐,引导用户点击更多页面.