解决方案:初识PageRank算法

优采云 发布时间: 2022-10-16 19:17

  解决方案:初识PageRank算法

  1.简单的PageRank计算

  首先,我们将Web抽象如下: 1.将每个网页抽象成一个节点;2.如果一个页面A有一个链接直接链接到B,那么有一条从A到B的有向边(多个相同的链接不重复计算边)。因此,整个 Web 被抽象为一个有向图。

  现在假设世界上只有四个网页:A、B、C、D。抽象结构如下图所示。显然,这个图是强连接的(从任何节点,你可以到达任何其他节点)。

  然后需要使用合适的数据结构来表示页面之间的连接关系。PageRank算法就是基于这样一个背景思想:随机上网者访问的页面越多,质量可能就越高,而随机上网者在浏览网页时主要通过超链接跳转到页面,所以我们需要分析构成的超链接。图结构用于估计每个网页被访问的频率。更直观地说,一个网页的 PangRank 越高,随机浏览者在浏览网页的过程中停留在页面上的概率就越大,该网页的重要性就越高。

  为简单起见,我们可以假设当一个随机的冲浪者停留在一个页面上时,跳转到该页面上每个链接页面的概率是相同的。比如上图中,页面A链接到B、C、D,所以用户从A跳转到B、C、D的概率各为1/3。假设总共有N个网页,可以组织一个N维矩阵:第i行第j列的值代表用户从第j页到第i页的概率。这样的矩阵称为转移矩阵。上图中四个网页对应的转移矩阵M如下:

  那么,假设随机浏览者从n个页面出来的初始概率相等,那么初始概率分布向量是一个n维的列向量V0,每个维度为1/n。这里我们有 4 页,所以 V0-1 = [1/4, 1/4, 1/4, 1/4]。

  这样,我们就可以从初始向量 V0 开始,不断地将转移矩阵 M 左乘。用户在浏览网页时主要通过超链接使i跳转后,停留在每个页面的概率为:Mi*V。停止直到最后两次迭代在结果向量中产生非常小的差异。实际上,对于 Web,50 到 75 次迭代足以收敛,误差控制在双精度。

  以下是前四次跳转时每次迭代后每个页面的PageRank值:

  可以看出,随着迭代次数的增加,网页A的PageRank值越来越大,接近其极限概率3/9。这也说明随机上网者停留在A页面的概率大于B、C、D页面,页面也更重要。

  2. 问题 1:死胡同

  

  终止点是没有出链的点,比如下图中的C。

  如果我们不对其进行处理,让终止点存在,那么随着PageRank迭代次数的增加,每个网页的PageRank值将趋于0,这样就无法获得网页相对重要性的信息.

  通过从图中删除它们及其传入链来处理终止。这样做之后,可以生成更多的端点,并继续迭代消除端点。但最终我们得到了一个强连通子图,其中所有节点都是非终端的。我们以左图为例进行说明。按照上述步骤消除终止点后得到左图,得到右图。

  我们得到右图对应的转移矩阵,计算图中A、B、C的PageRank值。

  我们得到A、B、C的PageRank值分别为2/9、4/9、3/9,然后按照删除的逆序计算C、E的PageRank值。由于 C 是最后被删除的,所以首先计算 C 的 PageRank 值。A有3个外链,所以它贡献了1/3的PageRank值给C。D有3个外链,所以它贡献了1/2的PageRank值给C。所以C的PageRank值是:

  E的入链只有C,C的出链只有E,所以E的PageRank值等于C的PageRank值。

  需要注意的是,当前所有节点的PageRank值之和已经超过1,因此不能代表随机上网者的概率分布,但仍能反映对页面相对重要性的合理估计。

  3.问题2:采集器蜘蛛陷阱

  采集器陷阱是一组节点,虽然它们都不是终止点,但它们都没有出链指向该集合之外的其他节点。采集器 陷阱导致计算时将所有 PageRank 值分配给 采集器 陷阱内的节点。

  

  如下图所示,C是一个单节点采集器陷阱及其转移矩阵。

  随着迭代的进行,C 的 PageRank 值趋于 1,而其他不在 采集器 陷阱中的节点的 PageRank 值趋于 0。

  采集器 陷阱的处理方式是允许每个随机浏览者随机跳转到一个随机页面,跳转概率很小,而不必遵循当前页面上的外链。因此,根据上一次PageRank估计值V和转移矩阵M估计下一次迭代后的PageRank值V'的迭代公式变为:

  其中 β 是一个选定的常数,通常在 0.8 和 0.9 之间。e 是一个向量,其分量全为 1,维度为 n,其中 n 是 Web 图中所有节点的个数。βMv 表示随机冲浪者以概率 β 从当前网页中选择外链向前移动的情况。(1−β)e/n 是一个所有分量为 (1−β)/n 的向量,它表示一个新的随机冲浪者具有 (1−β) 概率随机选择要访问的网页。

  取β=0.8,上图的迭代公式变为:

  以下是之前迭代的结果:

  作为一个采集器 陷阱,C 获得了超过一半的 PageRank 值,但这种影响是有限的,并且每个其他节点也获得了一些 PageRank 值。

  ————————————————————

  参考文献:《大数据:互联网海量数据挖掘与分布式处理》及其对应的原版电子书《海量数据集挖掘》

  解决方案:百度即将“严打”B2B领域!细雨算法2.0应对方法!

  2. 低质量内容:

  1、图片内容质量低。

  例如:图片内容与文字描述不一致,图片中嵌入了电话号码,图片质量极低,影响阅读体验等;问题示例:图片中嵌入了大量的联系电话。

  2. 页面内容质量低劣。

  例如:页面只有图片,没有有效信息,或者信息不完整;问题示例:网站只有图片展示,没有文字描述。

  以上错误演示来自百度发布的案例。按照百度的做法,如果被算法命中,就会被限制显示;至于限制的持续时间,取决于 网站 违规的严重程度。

  3

  老牛总结了一下。百度自2013年公布第一个算法公告以来,一共发布了13个算法!而且这些算法会不时升级。例如,上周宣布升级信标算法 3.0。

  还有雷霆算法、冰桶算法、微风算法、闪电算法、优采云算法……各种算法层出不穷,让企业网站运营商百思不得其解。

  一旦被最新算法击中,权重会轻减,影响部分内容收录,权重会归零,搜索引擎显示完全消失。

  

  并且公司的网站运营商可能无法及时学习到最新的算法知识,或者无法及时响应。一旦他们被招募,网站晋升很可能会失败。

  因此,在牛商网的SaaS云建站平台上,我们增加了“自动匹配最新搜索引擎算法”的功能。

  只要登录后台,提醒板就会显示踩雷最新算法的提醒。我们根据提示内容调整优化方法和策略,极大的避免了网站运营人员不假思索的踩雷。

  4

  网站后台自动升级,网站运维更方便

  搜索引擎版本迭代,传统独立网站后台无法同步升级,牛商云平台自动更新网站后台,同时快速修复bug避免修复时影响网络查询错误。

  也就是说,百度等搜索引擎更新后,后台会根据适应最新算法的规则,自动匹配升级用户的网站结构,使升级后的网站符合到最新的算法,从而防止 网站Rank 由于算法更新而下降或关闭。

  用户无需花时间研究算法规则,可以专心网站免费优化和付费推广。

  5

  什么是牛商网SaaS云平台

  自2008年以来,牛商网已经为上万家企业打造了营销类型网站,积累了大量为中小企业网络营销保驾护航的经验。为了

  方便企业客户网站优化运营、后台维护、网站升级,同时提供更安全稳定的运维环境。

  

  2015年,牛商网组织研发团队40余人,斥资2000万元以上,打造新一代SAAS营销型网站建站系统,更好地帮助客户,为网络营销保驾护航.

  8大优势助力企业网络营销变好:

  1、云建站平台,让建站更高效;

  2、对搜索引擎更友好,更容易获得免费排名;

  3、全静态营销类型网站,打开速度更快;

  4.自动追逐,迎合搜索引擎算法;

  5、网站后台自动升级,运维更方便;

  6、前后台隔离,避免因断网造成的推广损失;

  7.安全防护,一键释放;

  8. 技术加密,防止数据被盗。

  随着网民审美的不断提升,互联网技术的不断迭代升级,网络风险的上升,你的网站和空间是时候升级了。如何升级?详情回复后台“SaaS+姓名+电话”~

  - 结尾 -

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线