百度搜索研发部官方博客《浅谈互联网页面价值》

优采云 发布时间: 2021-04-27 06:01

  百度搜索研发部官方博客《浅谈互联网页面价值》

  本文文章来自百度搜索研发部门文章“谈论互联网页面的价值”的官方博客。揭示了百度收录 网站页面的价值判断标准,并指出了搜索引擎优化者的优化方向。博客认为,适当而正确的SEO是必要的,这对于正常的互联网生态环境也是必要的。因此,判断这些页面价值的标准还可以告诉我们什么是过多的SEO,甚至会因作弊而受到惩罚。不影响雷区但可以为网站站长带来更多好处的优化方向是什么?

  Ps:百度搜索研发部门的官方博客(我很久没有更新了)

  搜索引擎每天处理亿万个查询请求,每个查询请求代表用户对特定资源的特定需求。在大多数情况下,这些条件是通过查询返回的网页结果来满足的,我们可以认为结果中的某些页面已经为特定用户的特定需求带来了价值。那么对于搜索引擎而言,页面的价值是什么意思,为什么我们要研究页面的价值,以及我们如何从技术上判断页面的价值?本文将一个接一个地回答这些问题。

  一、什么是页面值。

  正如我们之前所说,页面可以满足用户的特定需求,这可以向用户反映页面的价值。那么对于搜索引擎来说,它体现的价值是什么?一个简单的推论是,所有可能为用户带来价值的页面对搜索引擎都是有价值的。这些页面可以内置到搜索引擎的索引中,以满足最终检索它们的用户的需求。我们称此为值搜索。价值。只要它能解决某个用户的信息需求,并且可以通过一些正常的搜索要求才能达到,那么就有搜索价值。

  小学生张三喜欢在qzone上写日记,写他前天吃了什么,今天玩了什么。这些内容是有价值的。它们对张三的父母,同学,老师和其他小学生以及对小学日记感兴趣的人都是宝贵的。对于此信息主体,名称“张三”是检索的“关键”。

  有些信息单元仅具有“浏览”的值,无法检索信息。这样,资源可能很有价值,但检索价值却很低。例如,从浏览的角度来看,百度大楼附近的地图很有价值。但是如果周围没有文字说明(或链接的锚点文字),则只有裸露的地图,也就没有搜索值。当然,如果图片的内容识别技术有一天可以自动识别出这是“百度大楼附近的地图”,或者可以自动分析地图中各种建筑物,街道,饭店等的名称,那么这张图片会变得相似。检索值。因此,页面是否具有搜索值应取决于两点:

  1)是否可以通过常规搜索方法(搜索)获取信息

  2)是否可以解决特定需求(价值)

  那么,没有搜索值的页面对搜索引擎没有价值吗?考虑一下,答案是否定的。索引只是搜索引擎的一个链接。对于其他链接,没有搜索值的页面可能会帮助我们更好地收录那些具有高搜索值的页面。例如,对于负责爬网Internet资源的蜘蛛来说,有些页面本身没有搜索值,但是对这些页面的爬网和分析可以帮助我们更快地掌握这种类型的页面没有搜索值的重要信息。从而节省更多流量,以实现更有效的爬网。

  考虑到该值可以算作一种“间接”检索值,它最终基于索引值,因此在本文中我们将不再讨论。我们只关注“取回价值”这一根本问题。下面提到的“页面值”专门指页面的“搜索值”。

  二、为什么要研究页面价值

  首先,搜索引擎蜘蛛的爬网能力受到限制。为了方便访问,网站或IP爬网速率需要具有爬网速率的上限。在此限制下,爬网或页面更新需要有一个序列,并且这种排序的主要参考依据是页面值或页面值的预测(当未爬网时)。这是页面值在蜘蛛调度中的应用。

  第二,Internet上的页面无止境,搜索引擎的硬件资源有限。如果要使用有限的资源来覆盖无休止的Internet,则需要对页面的价值进行判断,否收录没有搜索值的页面要比收录搜索值低的页面少。这是页面值在收录控件中的应用。

  第三,对于某些页面,页面的内容已更改,导致其搜索值从存在变为虚无。通常,它变成“死链接”或“被黑”。对于这些页面,好的搜索引擎将在第一时间将它们从索引中排除,或者在检索期间将其阻止,以确保返回给用户的结果是具有较高检索价值的更多“好的页面”。对于其他页面,它不仅具有很高的搜索价值,而且还具有很强的“及时性”,可以使用户在第一时间检索这些页面,从而大大改善了搜索体验。对于搜索引擎而言,更快的页面收录和索引页面意味着更多的额外资源开销,并且需要通过页面值的分析来指导收录的快慢和索引更新索引的时间。这两个方面是页面价值在改进两个主要搜索引擎指标,无效链接率和页面及时性方面的应用。

  最后,一般意义上的页面值对于搜索引擎返回给用户的结果的排名也具有指导意义。理想情况下,将根据搜索引擎结果与查询请求的相关性对其进行排序。当相关性大致相同时,用户通常更倾向于浏览具有高页面价值的网页。这是网页价值在排名中的应用。

  关于页面检索价值的研究是搜索引擎中相对基础的工作。对网页价值的理解和判断的准确性直接影响搜索引擎的覆盖率,无效链接率,及时性和其他主要指标。

  三、如何判断页面价值

  在上一篇文章中,我提到了一个小学生张三的qzone日记的例子。我们认为此页面对于张三的同学,朋友和家人而言非常有价值。同样,百度首席执行官李彦宏在i 贴吧上发布了一个带有十多个字符的i-post,这对李彦宏的数千万粉丝来说也很有价值。尽管李彦宏的i-post的长度可能比张三的日记短,但就这两页的价值而言,我们都会有一个共同的理解,即从一般意义上来说,罗宾的价值李的i-post比张三的日记大得多。 (当然,对于张三的母亲,这个值之间的关系很可能相反)

  再举一个例子,如果您搜索某人的手机号码,则搜索引擎会返回结果,该结果是该人在论坛上的回复。尽管不是很多人关心此手机号码,但由于资源绝对稀缺,因此对于此手机号码的查询需求,此页面是完全无法替代的,因此它具有极高的价值。

  此外,页面检索的价值还受页面质量的影响。相似的页面通常在满足用户需求方面有很大的不同,例如资源下载速度,页面布局和广告数量。这种差异,我们称之为页面质量。

  最后,某些页*敏*感*词*有明显的公共主题性质,而这些资源在刚创建时通常受到很高的关注,并且随着时间的流逝其知名度显着下降,并且具有“新闻”的特征。典型的*敏*感*词*自然灾害,例如各种“门”事件,地震和火灾。我们认为这类资源具有“及时性”的特点。

  因此,页面的搜索值大致受以下四个元素的影响:

  这四个要素被称为受众,稀缺性,质量和及时性。

  1.受众

  受众群体的规模代表用户搜索需求的规模。评价受众的规模主要基于两个方面:信息发布源的受众和信息内容本身的受众。具体因素包括但不限于:

  网站忠实的用户群大小

  通常来说,众所周知的网站具有自己的忠实用户群,他们的成功在于其内容和服务,这些内容和服务比其他用户更能吸引和满足用户。从这个角度来看,我们可以推断,网站上具有更多忠实用户组的内容将比网站上具有较少忠实用户的内容具有更多的现有和潜在受众。这样,忠实用户组的规模就可以成为站点上资源检索价值的衡量标准。忠实的用户群的优势在于它是流畅的。如果网站变差,用户将用脚投票。超链接具有到期问题和作弊问题,并且虚假用户组很难作弊。通常,所谓的网站受欢迎程度与忠实用户群体的数量密切相关。

  资源分配法

  让我们考虑网站中资源分配所反映的受众规模问题。例如,新浪新闻首页上的推荐内容。新浪编辑为什么要推送这些内容?因为他们认为这些是用户最感兴趣的。所以从索引值的角度来看,这等效于拥有一个庞大的编辑团队,该团队被标记为“符合大众口味”。搜索引擎只需要享受自己的成就即可。在这种情况下,资源相对于某些结构性关键页面(主页,频道页面等)的链接深度也可以指示资源受众的规模。

  访问人气

  然后,从访问受欢迎程度的角度考虑受众规模。这是最直接的。当然,它需要第三方工具来获取关键数据。通过这种方法,不仅可以获取需要存储在库中的页面,还可以获取用户的网站访问模式。

  超链接

  超链接在某种程度上也反映了观众的人数。某种资源的质量越高,可以覆盖的受众群体越多,可以获取的常规链接数量就越大。

  内容功能

  A:我写了一个博客:“有传言说郭德的提纲是在春节联欢晚会上。”

  B:我写了一个博客:“我今天吃早餐。”

  对于同一来源,前者的受众必须高于后者。也就是说:发布源相同时,具有public属性的内容得分会更高。

  2.痕迹

  稀疏性主要描述Internet上页面的唯一性。说到稀缺性,我们经常想到重复。稀缺意味着没有重复吗?我们应该如何解释这个概念?您可以看到一个示例:

  某人发布了有关新闻事件的原创博客,该博客后来被新浪重新发布到新闻频道。从描述的内容来看,这是一种重复。但是,这种重复仅仅是主要内容的重复。一方面,其重印带来访问速度和稳定性的提高,后续的检索用户也可以使用“新闻事件+新浪”检索此新闻。这可以称为站点增益。另一方面,它可能会在重新打印过程中更改页面标题,并且根据其受众,在重新打印的页面上可能会有更多有价值的评论和答复,还可能有指向其他相关事件的新闻。关联。这些可以称为内容获取。因此,即使主题内容没有变化,新浪的转载也很有价值,而且稀缺性也很高。

  另一方面,如果重新打印的网站完全未知,则不会带来站点名称/稳定性/速度提高。此外,在重新打印后,页面上会添加大量广告以阻止阅读,或者仅重新打印部分内容。这样的转载或采集是纯重复。与采集的来源相比,没有搜索值。

  总而言之,对于具有重复主要内容的页面,我们应该评估是否有网站获得和内容获得。仅对于大量重复的页面却一无所获,我们应该认为它们的稀缺性很低。

  3.质量

  页面的质量体现了页面满足需求的程度。从最基本的需求判断页面的质量应该是渐进的。

  首先,它一定不是死链接,网站必须具有一定的稳定性,访问速度必须令人满意。

  第二,主要内容是否完整,布局和字体是否易于阅读以及广告是否过多。

  最后,信息是否丰富,以及是否满足扩展的辅助需求。

  典型的低质量页*敏*感*词*有以下特征:

  典型的高质量页*敏*感*词*有以下特征:

  快速访问速度(快速页面加载/快速资源下载速度)

  4.及时性

  “及时性”是页面价值的一个属性,通常体现在两个方面:首先,页面本身描述的事物具有很强的公共话题性,并且易于传播。这实际上是观众的体现。第二个是页面上描述的内容第一次才具有很高的知名度,并且随着时间的流逝,知名度已经大大下降。这是一种“新闻”。对于具有以上两个属性的页面,如果搜索引擎蜘蛛发现该页面恰好在事物的“爆发期”或“爆发期”之前,则我们认为该页*敏*感*词*有时间敏感性。

  应该注意的是,搜索引擎的广义“及时性”是指对所有有价值的新资源进行及时的收录检索,并且所有有价值的新资源中的很大一部分的速度为收录,几乎没有改善用户搜索体验的意义,例如介绍张三的日记中有关如何减肥的知识文章。页面值中的“及时性”指的是一种突然的及时性,即所有需要及时的有价值页面的时间性收录。页面及时性的判断是引导我们将搜索引擎的有限资源投入到最关键的地方,以产生最佳的性价比。

  判断页面的及时性值主要是通过以下方式进行的:

  四、研究页面价值

  上一篇文章介绍了页面价值的含义,研究的意义以及价值判断的方法。最后,让我们从技术角度看一下该方向研究的关键方向。页面价值的研究主要集中在三个方面:

  页面价值体系的意识。我们目前对页面价值的理解来自上述四个方面。这种理解是否全面?对于不断变化的Internet环境和用户需求,应如何扩展和更改这些维度以更好地服务于整体搜索体验。促销是一个非常重要的问题。

  用于提取反映页面价值的页面特征。聪明的女人很难不用米饭做饭,挖掘更多的页面特征和更准确,合理的特征提取是提高页面价值判断准确性的基础。

  各种页面功能的组合策略(机器学习)。对于不同的应用方向,有必要通过合理有效的策略使用相应的功能来适应页面价值的最终评估结果。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线