SEO基础:近年来,谷歌已经成为世界上使用最广泛的搜索引擎之一

优采云 发布时间: 2021-08-27 00:07

  SEO基础:近年来,谷歌已经成为世界上使用最广泛的搜索引擎之一

  SEO基础:基于PageRank算法的搜索引擎优化策略

  近年来,Google 已成为世界上使用最广泛的搜索引擎之一。谷歌的优势不仅在于删除无用(广告)标语形成单个页面,还有自己的缓存系统,动态生成摘要信息,以及为高速检索而构建的去中心化系统(数千个集群)等。

  本文的目的是在分析PageRank算法的基础上,分析各种网络链接结构对搜索结果(PageRank值)的影响以及由此产生的搜索引擎优化策略。

  1 PageRank 算法

  简而言之,PageRank 是一个数字,代表网页在 Internet 上的重要性。

  通用搜索引擎以网页排名值和网页搜索结果的相似度作为搜索结果排名的依据。后面会解释,搜索语句不会出现在PageRank自己的表达中。 PageRank也是一个文档的一个特定的固有分数,无论得到多少个搜索语句,都只取决于网络的链接结构。

  PageRank算法的具体思想是将某个页面的PageRank除以该页面中存在的前向链接,然后将得到的值与前向链接指向的页面的PageRank相加得到获取链接页面的PageRank。该算法基于“许多高质量页面链接的页面仍然是高质量页面”来判断所有网页的重要性。一个网页获得的票数越多,它就越重要。此外,投票页面的重要性也决定了投票本身的重要性。

  在计算网页的页面排名值时,应考虑所有传入链接。第一页排名值计算公式如下:

  公共关系(A)=(1–d)+d(pr(t1)/c(t1)+?+pr(TN)/c(TN))

  公式中的PR代表页面的PageRank值,T1~TN代表有A页面链接的网页,C是来自网页的链接数,D是阻尼系数(常数,谷歌一般取0 . 85). 因为在互联网上浏览时,用户可以跳转到一个完全不相关的页面,而无需关注当前页面中的链接,所以d实际上代表了用户关注该网页的链接而不生成的概率随机跳跃。

  (1)是计算网页排名值的初始公式。目前谷歌还没有公布其算法,所以有可能谷歌在使用时对这个公式做了一些修改。但它是几乎不可能会影响后面的分析。

  根据公式(1),一个网页的页面排名值的计算总是依赖于其他相关页面,所以页面排名值的计算实际上是一个迭代过程,计算结果的准确性取决于初始值和迭代次数的选择。一般情况下,初始值为1,为了保证结果在实际应用中始终收敛,需要加上阻尼系数d。

  另*敏*感*词*从0到10。之所以称为“标签”,是因为它不是网页的真实页面排名值,而是该网页的日志索引。实数值,对数底应为5-6范围内的值。

  PageRank & ldquo 在所有链接的页面上执行。投票。由于随机跳转的可能性,总的页面排名值略小于网页本身的页面排名值(它自己的值为3天)。该值均匀分布在所有传出链接中。因此,您的网页的页面排名值非常重要,但该页面的输出链接数量也不容忽视:输出链接越多,您的网页获得的页面排名值就越低。另外,由于pr值是PageRank真实值的对数指数,这意味着网页需要更多的PageRank值才能从较高的PR值而不是从较低的PR值提高。在这种情况下,哪个比具有更多传出链接的 PR8 页面和具有更少传出链接的另一个 PR4 页面更有效?这可能取决于 PR 值的对数基础和特定的链接条件。

  需要注意的是,当一个网页被“投票”而其他页面的页面排名值受此方法影响时,其页面排名值不会降低。这不是PageRank的转移过程。

  2 基于 PageRank 的优化策略

  假设我们有一个网站,将网站的页面排名均匀地分配到每个页面显然是不明智的(如果可能的话),因为我们不能也不需要对@的所有页面进行排名网站 非常高。如果一个网站的大部分页面排名值可以通过某种方式指向一个或几个页面,从而使其排名可以大大提高,效果当然比均匀分布的结果要好。因此,下面讨论的重点不是单个页面的权重,而是重要页面在整个网站或网站中的页面排名值。这些页面可能是索引页面、中心页面或针对特定搜索词优化的页面。

  2.1 考虑内部联系人的影响

  网站的页面排名值是网站中所有页面的页面排名值的总和。 网站 的最大页数等于它的页数。入站链接可以增加这个最大值,出站链接可以减少它。 网站 中的链接组织得不好。 网站可能达不到最大页面排名值,但不可能超过这个值。需要注意的是,虽然添加页面可以提高网站的页面排名值,但添加任何页面并不总是可行的。那些相同或几乎相同的页面称为“垃圾邮件”。 Google 认为这是垃圾邮件,会触发相应的警报机制。因此,这个页面甚至整个网站都会受到惩罚。所以基本上,网页应该有一定的质量。

  让我们分析网站内部链接如何影响页面排名。我们这里考虑的是一个相对独立的网站,目前不会考虑入站和出站链接的影响。

  假设一个网站有三个没有外链的页面(图1)。在(a)、(b)和(c)的情况下,我们赋予初始值1,一个阻尼系数,到每个页面用谷歌的(0.85)。迭代收敛后,三种情况下的PageRank值如下:

  (a): PageRank A = 0. 15, PageRank B = 0. 15, Grade C = 0. 15;

  (b): A 级 = 0. 15, PageRank B = 0. 277±5, C 级 = 0. 15;

  (C):第一级=1,第二级=1,第三级=1;

  网站(a)的page rank值为0. 45,严重浪费了潜在的PageRank值。 (b)中的情况稍好一些,总值为0。5775比上例增加了,但仍然只是最大值的一小部分(这种结构的wobble pages这里不讨论) 在(C)的链接结构下,网站达到了最大页面排名,也可以通过循环结果得到:A到B,B到C,C到A..同样情况下,页面数可以增加到3页以上。

  可以看出链接不好,可能完全浪费了潜在的PageRank值。根据实验规则,得到内部链接结构的第一个优化策略:一般来说,当有链接时,循环链接或任意两个页面都可以达到网站的页面排名值。

  假设A作为索引页,有两个链接结构(A)和(B)。省略计算过程后,迭代结果如下:

  第一页 = 1.459 459,B 页 = 0. 770 270 3,C 页 = 0. 770 270 3;

  首页 = 1.298 245,B 页 = 0.9999 999 9,C 页 = 0.701 754 3;

  这两个结构的总和仍然是3(最大值),所以没有浪费。但是,在(B)的情况下,A显然丢失了一部分页码,C也丢失了一部分页码,因为A和B共享而不是独占使用,A通过反馈的c值链接 A & rarrc 减少。

  因此得到第二个优化策略:为了获得索引页的最大PageRank值,其他页面应该尽量减少相互链接。如果一个页面链接到一个带有循环链接的页面,在这个页面上添加一个新的出站链接会间接失去部分PageRank值。如果没有这样的循环,页面排名值不会下降。这在内部链接中并不重要,但在网站 之外的链接中则不同。可以看出网站的页面排名值可以通过组织的内部链接指向选中的页面。内部链接可以按照网站的页面排名要求进行组织,但必须是谷歌批准的页面。

  2.2 入站和出站链接

  入站链接(从网站外部输入的链接)是提高网站页面排名值的方法之一。入站链接来自哪里并不重要。谷歌认为,只要网站管理员不控制与网站链接的其他网站,他就不会因此受到惩罚。

  链接页面的页面排名值很重要,但链接的数量也很重要。例如,如果它是一个网页的唯一输出链接,并且PageRank值为2,它会得到一个值0。15+0.85(2 /1) = 1.85;一个PageRank 8的页面有100个输出链接得到0 . 15+0.85 (7 /100) =0.209 5. 显然PR2链接更有效。一旦将页面排名值注入网站,就需要重复计算一些页面的值会增加,而其他保持不变,取决于内部链接结构,但肯定没有页面会失去页面排名值。

  对于入站链接,指向您要指向的重要页面更有利。如果 PageRank 被注入到其他页面中,它会因内部链接而分散在网站 中。索引页也会被推广,但没有直接链接那么多。直接获取入站链接的页面获取最大值。

  优化策略之三:以网站索引页为最佳目标,引入入站链接。

  出站链接会造成网站page排名值的消耗。为了抵消这种消耗,需要确保链接是相互给定的。双向链接可能会获得或失去 PageRank 值,因此链接交换应特别小心。

  当PageRank值与另一个网站链接一起出现时,所有内部链接的页面都会受到影响。虽然 PageRank 值的具体变化取决于链接结构,但一般情况下,给出链接的网页通常失去最多的 PageRank 值,因此衍生出第四种优化策略:将出站链接放置在 PageRank 较低的页面上,导致在 PageRank 中损失较少。

  任何网站没有出站链接几乎是不可能的,但不幸的是,一切都很正常。 PageRank 值被链接泄露。但是还是有一些特殊的方法不公开链接。 PageRank 是否泄漏取决于 Google 是否可以识别链接,因此您可以使用 Google 无法识别或忽略的链接,包括表单操作和收录 JavaScript 代码的链接。

  表单的action属性不一定是处理表单脚本的url,它可以指向任何网站的任何页面。示例:

  另外,action 属性甚至可能不在表单中,而是在 JavaScript 代码中,而 JavaScript 代码可能位于存储路径的 js 目录中,通常不会被 Google 的蜘蛛程序访问。

  3 总结和排名提升

  PageRank值是由网络链接结构决定的,与具体搜索内容无关,因此在搜索过程中消耗很小,优于早期的H ITS算法。无论网页内容的具体需求如何,所提出的优化策略都有利于提高网页排名算法在搜索引擎搜索结果中的排名。这个效果在短时间内可能不会很明显,但是随着网页和网站之间的链接的增加,最终的效果还是相当可观的。

  同时,由于PageRank算法的搜索独立性,也可能导致一些不利的结果。例如,对于一些在特定语境中具有特定含义的词,或者对于一些专业词,只有PageRank排名的结果可能是Unsatisfactory,例如,相同的搜索“结构”这个词,在建筑语境中,在在芯片制造的背景下,用户想要的搜索结果必然会有所不同。但是,页面排名是网页的固定属性,可能达不到预期的效果。如果把整个互联网看成一个维度,那么PageRank就是这个维度上的一个向量。针对以上缺点,我们可以考虑建立一个此类向量的向量集。也就是说,可以针对一些指定的关键词计算多个页面排名值,然后根据搜索内容匹配对应关键词的页面排名值[4]。当然,排名结果中使用的 PageRank 值仍然是唯一的。这种改进增加了检索过程的成本,但大大提高了结果的排名。

  参考:

  大型超文本网络搜索引擎分析[A]。第七届国际万维网会议论文集[C], 1998.

  [2] 巴巴,马长照。 Google-PageRank 解释的秘密 [EB/OL]。 ~爸爸,2003 年。

  [3] JEH,伊多姆。缩放个性化网络搜索[R].斯坦福大学,2002 年。

  [4] 哈维尔·伊瓦拉。前IC2敏感页面排名[A]。 2002年第十一届国际互联网大会论文集[C].

  版权声明:网站上的原创文章由秦皇岛搜索引擎优化发布。如转载请注明出处。秦皇岛搜索引擎优化博客

  转载请注明:seo-网站optimization-网站建-外链代发»基于PageRank算法的搜索引擎优化策略

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线