搜索引擎优化策略(pagerank假设一个包含三个网页的网站,没有外部链接(图1))

优采云 发布时间: 2021-10-27 02:13

  搜索引擎优化策略(pagerank假设一个包含三个网页的网站,没有外部链接(图1))

  近年来,谷歌已经成为世界上使用最广泛的搜索引擎之一。谷歌的优势不仅在于去除无用(广告)标语形成单个页面的功能、自身的Cache系统、动态汇总信息创建、高速检索的分布式系统(数千个Linux集群)等。 ,而且最大的优点是其搜索结果的正确性。与其他搜索引擎相比,更好的搜索结果排名会帮助用户尽快找到自己需要的信息。而研究目前国内的互联网网站,我们可以发现,在处理网页之间的链接结构时,往往会出现很多随意性。众所周知,网页之间的链接结构是决定网站在搜索结果中排名的重要因素之一。这种搜索结果排名技术基于一种复杂的 Web 文档算法,称为 PageRank 算法。

  本文的目的是在分析PageRank算法的基础上,分析各种网络链接结构对搜索结果(PageRank值)的影响,以及由此产生的搜索引擎优化策略(/wp-content/uploads/2011/05/ pagerank.png" alt="pagerank 基于PageRank算法的搜索引擎优化策略">

  假设一个网站收录三个网页,没有外部链接(图1)。在(a)、(b)、(c)的情况下,我们为每个网页分配初始值1 , 阻尼系数保持与谷歌相同(0. 85),迭代收敛后,得到三种情况的PageRank值如下:

  (a): PageRank A = 0. 15, PageRank B = 0. 15, PageRank C = 0. 15;

  (b): PageRank A = 0. 15, PageRank B = 0. 277 5, PageRank C = 0. 15;

  (c): PageRank A = 1, PageRank B = 1, PageRank C = 1;

  网站(a)的PageRank值为0.45,严重浪费了潜在的PageRank值。(b) 情况稍微好一点,0. 577 5 的总值比上例有所增加,但仍然只是最大值的一小部分(对于本例中存在的swing page情况)结构,这里不讨论)。在(c)的链接结构下,网站已经达到了最大PageRank,也可以通过循环得到结果:A到B,B到C,C到A。同样情况下,可以增加页数超过 3。

  可见链接不好,可能浪费了潜在的PageRank值。根据实验规律,得到内部链接结构的第一个优化策略:一般来说,一个循环链接或者任意两个页面在有相互链接的情况下都可以达到网站PageRank的较大值。

  假设A用作索引页,则有(a)和(b)两种链接结构。省略计算过程后,迭代结果如下:

  (a):页面 A = 1. 459 459,页面 B = 0. 770 270 3,页面 C =0. 770 270 3;

  (b):页面 A = 1. 298 245,页面 B = 0. 999 999 9,页面 C =0. 701 754 3;

  两个结构的总和仍然是3(最大值),所以没有浪费。但是在(b)的情况下,A明显失去了PageRank,页面C也失去了一部分PageRank,因为A和B的分享方式代替了A的独占使用,A的值通过A反馈给C→ C链接也减少了。

  于是衍生出第二种优化策略:为了得到索引页的最大PageRank值,其他页面尽量减少相互链接。如果链接到某个页面的页*敏*感*词*有循环链接,则在该页面上添加新的外链将间接损失部分 PageRank 值。如果没有这样的循环,PageRank 值不会降低。这在内部链接中不是很重要,但是发生在网站之外的链接时就不同了。可以看出,通过组织的内部链接,可以将网站的PageRank值定向到选中的页面。内部链接可以按照网站的PageRank要求进行组织,但必须是谷歌认可的页面。

  2. 2 个入站和出站链接

  入站链接(从外部网站 输入的链接)是提高网站 PageRank 价值的方法之一。入站链接来自何处并不重要。谷歌认为,只要网站管理员不控制其他网站链接到网站,此类链接不会受到处罚。

  链接页面的PageRank值很重要,但同时外链的数量也很重要。例如:如果它是一个PageRank值为2的网页的唯一出站链接,您将得到0. 15 + 0. 85 (2 /1) = 1. 85;和一个 PageRank 8 的网页,有 100 个链接,得到 0. 15 + 0. 85 (7 /100) =0. 209 5. 显然, PR2链接更有效,一旦PageRank值注入网站,需要重新计算,有的页面值增加,有的保持不变,这取决于内部链接结构,但是肯定不会有任何页面会失去 PageRank. 值。

  入站链接指向您要引导的重要页面更有益。如果 PageRank 被注入到其他页面,它会因为内部链接而分散到 网站 中。索引页面也将被提升,但不如直接链接那么多。直接获取入站链接的页面获取最大值。

  第三个优化策略:使用网站索引页作为引入入站链接的最佳目标。

  出站链接会导致消耗网站 PageRank 值。为了抵消这种消耗,需要保证链路之间是相互补充的。互惠链接可能会获得或失去 PageRank 值,因此您在交换链接时需要小心。

  当 PageRank 值被引出到另一个 网站 的链接时,内部链接的所有页面都会受到影响。虽然PageRank值的具体变化取决于链接结构,但一般情况下,给出链接的网页往往会失去最多的PageRank值,因此衍生出第四种优化策略:将出站链接放在PageRank较低的页面上,导致在 PageRank 损失很小。

  任何网站 几乎不可能没有出站链接,但不幸的是,所有“正常”链接都会泄漏 PageRank 值。但是有一些不需要泄露的“特殊”链接方法。PageRank 是否泄漏取决于 Google 是否可以识别链接,从而可以使用 Google 无法识别或不考虑的链接,包括表单操作和收录 JavaScript 代码的链接。

  表单的action属性不一定是处理表单脚本的url,它可以指向任何网站的任何页面。示例:<form name="myform" action=""><a href="javascrip t:document.myform.submit()">计算机学院, 四川大学</a>

  另外,action属性甚至不需要位于form表单中,而是位于JavaScript t代码中,JavaScript t代码可以位于存储路径的js目录中,这个目录一般不会被Google的访问蜘蛛程序。

  3 摘要和 PageRank 改进

  PageRank值是由网络链接结构决定的,与具体的搜索内容无关,所以搜索时的消耗很小,优于早期的H ITS算法。在不考虑网页内容的具体需求的情况下,所提出的优化策略有利于提高基于PageRank算法排名的网站在搜索引擎搜索结果中的排名。这个效果在短时间内可能不会很明显,但是随着页面的增加以及网站之间链接的逐渐增多,最终的效果还是相当可观的。

  同时,由于PageRank算法的搜索无关性,也可能导致一些不利的结果。例如,搜索“结构”一词也是如此。在架构的背景下,在芯片制造的背景下,用户希望得到的搜索结果必然是不同的。但是由于PageRank是网页的固定属性,可能达不到预期的效果。如果把整个互联网看成一个维度,那么PageRank就是那个维度的向量。针对以上缺点,可以考虑这样的向量的向量集。换句话说,可以针对某些指定的主题词计算多个PageRank值,然后根据检索到的内容计算出与相应主题词匹配的网页的PageRank值[4]。当然,排序结果时使用的 PageRank 值仍然是唯一的。这种改进增加了检索时的消耗,但大大提高了结果的排名。

  参考:

  [1] BR IN S, PAGE L. 大型超文本网络搜索引擎的剖析[A]。第七届国际万维网会议论文集[C], 1998.

  [2]巴巴H,巴巴始。谷歌のSecret-PageRank底部解释[EB /OL]。 库斯特罗。京都2u。交流 jp /~ baba /wais/pagerank. html, 2003.

  [3]JEH G, W IDOM J. 扩展个性化网络搜索 [R]。斯坦福大学,2002.

  [4]哈维尔·伊瓦拉。Top ic2Sensitive PageRank[A]。第十一届国际万维网会议论文集[C], 2002.

  本文作者:张伟、李智树(四川大学计算机学院,四川成都 610065)

  本文来自:Alvin seo博客

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线