南昌网页搜索引擎优化(什么是页面价值,给大家分享一篇百度搜索研发部写的)
优采云 发布时间: 2022-01-06 03:19南昌网页搜索引擎优化(什么是页面价值,给大家分享一篇百度搜索研发部写的)
什么是页面价值?给大家分享一篇百度搜索研发部写的文章:浅谈网页的价值。这个文章虽然被官方删除了,但还是被站长转载了。看看,你会得到回报。
搜索引擎每天处理数以亿计的查询请求,每个查询请求都代表用户对某种资源的特定需求。大多数时候,这些需求都是通过查询返回的网页结果来满足的,我们可以认为结果中的一些页面对于特定用户的特定需求已经产生了价值。那么对于搜索引擎来说,一个页面的价值是什么意思,我们为什么要研究一个页面的价值,我们又如何从技术上判断一个页面的价值呢?本文将一一解答这些问题。
一、什么页面价值
正如我们之前所说,一个页面满足了用户的特定需求,它体现了页面对用户的价值。那么对于搜索引擎来说,价值体现在哪里呢?一个简单的推论是,所有可能对用户产生价值的页面对搜索引擎都是有价值的。这些页面可以内置到搜索引擎的索引中,以满足最终检索它们的用户的需求。我们称之为价值搜索。价值。只要能够解决某个用户的信息需求,并且可以通过一些正常的搜索需求达到,那么就有搜索价值。
有一些信息单元只有“浏览”的价值,却没有办法检索到信息。那么资源可能有价值,但检索价值很低。例如,百度大厦附近的地图,从浏览的角度来看是有价值的;但是如果周围没有文字说明(或者链接的锚文本),就只有裸图,没有搜索价值。当然,如果图片的内容识别技术有朝一日可以自动识别出这是一张“百度大厦附近的地图”,或者可以自动分析出地图中各种建筑物、街道、餐厅等的名称,那么这张图片也将再次成为 Retrieve the value。因此,一个页面是否具有搜索价值应该取决于两点:
1)是否可以解决一个特定的需求(值)
2)是否可以通过常规搜索方式(搜索)获取信息
那么,没有搜索价值的页面对于搜索引擎来说就毫无价值了吗?想一想,答案是否定的。索引只是搜索引擎的一部分。对于其他链接,没有搜索价值的页面可以帮助我们更好地收录那些搜索价值高的页面。例如,对于负责抓取互联网资源的蜘蛛来说,有一些页面本身就没有搜索价值,但是对这些页面的抓取和分析可以帮助我们更快地掌握这类页面没有搜索价值的重要信息。从而节省更多流量以实现更有效的抓取。
考虑到这个值可以算作一个“间接”的检索值,它最终还是基于索引值,所以本文不讨论。我们只关注“检索价值”这个根本问题。下面提到的“页面价值”特指页面的“搜索价值”。
二、为什么要研究页面价值
首先,互联网上页面层出不穷,搜索引擎的硬件资源有限。如果我们想用有限的资源覆盖无穷无尽的互联网,就需要对页面的价值做出判断,而不是收录那些没有搜索价值的页面,少一些收录搜索价值低的页面。这就是页面值在收录控件中的应用。
其次,搜索引擎蜘蛛的爬行能力有限。为了访问的友好性,网站或者IP的爬取率需要有爬取率的上限。在这个限制下,爬取或者页面更新都需要有一个序列,这个排序的主要参考依据是页面值,或者是页面值的预测(当没有被爬取的时候)。这就是页值在蜘蛛调度中的应用。
第三,对于某些页面,页面内容发生变化,导致其搜索值由存在变为无。通常,它会变成“死链接”或“被黑”。对于这些页面,好的搜索引擎会在第一时间将它们排除在索引之外,或者在检索时进行屏蔽,以确保返回给用户的结果是更多具有较高检索价值的“好页面”。对于其他页面,它不仅具有较高的搜索价值,而且具有很强的“时效性”。能够让用户第一时间检索这些页面将大大改善搜索体验。对于搜索引擎来说,收录 和索引页面越快意味着更多的额外资源开销,而收录 的更新速度有多快,索引更新有多短,就需要通过页面分析的值来引导.
最后,一般意义上的页面值对于搜索引擎返回给用户的结果的排名也具有指导意义。理想情况下,搜索引擎结果根据其与查询请求的相关性进行排序。当相关性大致相同时,用户更倾向于浏览一般意义上页面价值高的网页。这就是page value在排名中的应用。
可以说,页面检索价值的研究是搜索引擎中比较基础的工作。页面价值的理解和判断的准确性直接影响到搜索引擎的覆盖率、死链接率、及时性等主要指标。.
三、如何判断一个页面的价值
百度CEO李彦宏在i贴吧上发表了十多字的i-post,对于李彦宏的千万粉丝来说,也很有价值。虽然李彦宏的i-post可能篇幅不大,但就这两页的价值而言,大家都会有一个共同的认识,就是一般意义上,李彦宏的i-post的价值是多少大于日记。
再比如,如果你搜索一个人的手机号码,搜索引擎会返回一个结果,该结果是该人在论坛上的回复。虽然关注这个手机号的人不多,但由于资源绝对稀缺,这个页面对于这个手机号的查询需求是完全不可替代的,所以具有极高的价值。
此外,页面检索的价值也受页面质量的影响。相似的页面往往在满足用户需求方面存在很大差异,比如资源下载速度、页面布局、广告数量等。这种差异,我们称之为页面质量。
最后,有些页*敏*感*词*有明显的公共话题性质,而这些资源在刚创建时往往具有很高的关注度,随着时间的推移,它们的受欢迎程度已经大幅下降,具有“新闻”的特征。各种“门”事件、地震、火灾等典型的*敏*感*词*自然灾害。我们认为此类资源具有“时效性”的特点。
因此,一个页面的搜索值大致受以下四个要素影响:
1、感兴趣的观众规模
2、页面的稀缺性(可替代性)
3、页面质量
4、页面时效性强弱
这四个要素被称为受众、稀缺性、质量和及时性。
1、 观众
受众群体的大小代表了用户检索需求的大小。评价受众的规模主要基于两个方面:信息发布源的受众和信息内容本身的受众。具体因素包括但不限于:
网站忠实用户基数
一般来说,知名的网站拥有自己的忠实用户群,他们的成功在于他们的内容和服务,比其他人更能吸引和满足用户。从这个角度,我们可以推断,在网站上拥有更多忠诚用户的内容会比在网站上拥有更少忠诚用户的内容拥有更多的存在和内容。潜在观众。这样,忠实用户群体的规模就可以成为衡量网站资源检索价值的尺度。忠实用户群的优势在于它是流动的。如果 网站 变得更糟,用户会用脚投票。超链接存在过期问题和作弊问题,假冒用户群难以作弊。所谓网站的人气,与忠实用户群的数量息息相关。
资源分配规律
我们来考虑一下网站内部资源分布所反映的受众规模问题。比如新浪新闻首页的推荐内容。为什么新浪编辑要推送这些内容?因为他们认为这些才是用户最感兴趣的。所以从指数值上来说,相当于拥有庞大的编辑团队,为这些内容贴上了“符合大众口味”的标签。搜索引擎只需要享受他们的成就。在这种情况下,资源相对于某些结构性关键页面(首页、频道页面等)的链接深度也可以作为资源受众规模的指标。
访问人气
然后我们从访问流行度的角度考虑受众规模。这是最直接的,当然,它需要第三方工具来获取关键数据。通过这种方式,不仅可以获取到需要存入库的页面,还可以获取网站的用户访问方式。
超链接
超链接也在一定程度上反映了受众的规模。一个资源的质量越高,它所能覆盖的受众群体越大,可以获得的正常链接数量也就越多。
内容特点
A:我写了一篇博文:“传闻郭德的节目要上春晚了。”
B:我写了一篇博客:“我今天吃早餐。”
从同一个源头来看,前者的受众一定要高于后者。即:当发布来源相同时,具有公共属性的内容得分会更高。
2、 稀缺
稀缺性主要描述网页在互联网上的唯一性。说到稀缺,我们经常会想到重复。稀缺是否意味着没有重复?我们应该如何解释这个概念?你可以看到一个例子:
有人发表了一篇关于新闻事件的原创博客,后来被新浪转发到新闻频道。从描述的内容来看,这是一种重复。但是,这种重复只是主要内容的重复。一方面,它的转载带来了访问速度和稳定性的提升,后续检索用户也可以通过“新闻事件+新浪”检索该新闻。这可以称为站点增益。另一方面,在转载过程中可能会更改页面标题,根据受众的不同,转载页面上可能会有更多有价值的评论和回复,也可能有指向其他相关事件的新闻。关联。这些可以称为内容增益。因此,即使主题内容没有变化,新浪的这篇转载也是有价值的,
同样的,另一方面,如果转载的网站是相当不知名的,它也不会带来站点名称/稳定性/速度增益。更有什者,转载后,在页面添加大量广告阻碍阅读,或仅转载部分内容不完整,此类转载,或采集,纯属重复,与采集相比与来源,没有搜索价值。
综上所述,对于主要内容重复的页面,我们应该评估是否有站点增益和内容增益。只有大量重复的页面根本没有增益,我们才应该认为它们的稀缺性很低。
3、 质量
页面的质量是它满足需求的程度的体现。判断页面的好坏,应该从最基本的需求出发,循序渐进。
首先一定不能是死链接,网站要有一定的稳定性,访问速度要令人满意。
其次,主要内容是否完整,版式和字体是否易于阅读,广告是否过多。
最后,信息是否丰富,是否满足扩展的次要需求。
典型的低质量页*敏*感*词*有以下特征:
1、 主要要求无效/不满足(过期分类广告/软件下载页面、下载链接无效等)
2、死链接
3、虚假信息/欺诈等。
4、点不稳定
5、 影响主要需求的权限问题(下载/浏览需要注册会员/积分等)
6、信息不全(转载不全等)
7、浏览体验差(广告/字体/页面布局等)
典型的高质量页*敏*感*词*有以下特点:
1、访问速度快(页面加载快/资源下载速度快)
2、页面干净整洁,主要内容突出。
3、页面信息完整。