搜狗搜索引擎优化(总体而言,搜索引擎面临以下挑战(一)_光明网(图))
优采云 发布时间: 2021-10-28 22:06搜狗搜索引擎优化(总体而言,搜索引擎面临以下挑战(一)_光明网(图))
一般来说,搜索引擎面临以下挑战。
1、页面抓取需要快速全面
互联网是一个动态的内容网络。每天,无数的页面被更新和创建,无数的用户发布内容并相互交流。为了返回有用的内容,搜索引擎需要抓取新的页面,但是由于页面数量庞大,搜索引擎蜘蛛一次更新数据库中的页面需要很长时间。搜索引擎诞生时,捕获和更新周期通常以月为单位计算,这也是为什么谷歌在 2003 年之前每个月都会有一次大更新的原因。
现在主流搜索引擎已经可以在几天内更新重要页面,并且会在几个小时甚至几分钟内收录高权重网站的新文档。但是这种快速的收录和更新只能局限于高权重的网站,而且很多页面在几个月内没有被重新抓取和更新是很常见的。
为了返回更好的结果,搜索引擎必须尽可能全面地抓取一个页面,这需要解决许多技术问题。一些网站不利于搜索引擎蜘蛛抓取和抓取,比如网站链接结构的缺点,Flash、Java脚本的广泛使用,或者用户访问前必须登录的内容这部分,都增加了搜索引擎抓取内容的难度。
2、 海量数据存储
一些大型 网站 在一个 网站 上有数百万、数千万甚至数亿页。可以想象一下,互联网上所有的网站页面总共有多少数据,搜索引擎蜘蛛爬取页面后,也必须有效地存储这些数据。数据结构要合理,可扩展性高,对写入和访问速度要求高。
除了页面数据,搜索引擎还需要存储页面之间的链接以及大量的历史数据,这是用户无法想象的。据估计,百度拥有超过340万台服务器,谷歌拥有数十个数据中心和数百万台服务器。如此*敏*感*词*的数据存储和访问将不可避免地面临诸多技术挑战。
我们经常看到搜索结果中的排名波动。没有明显的原因。我们甚至可以刷新页面并查看不同的排名。有时候,网站 的数据也会丢失,这可能与*敏*感*词*的数据存储和同步有关。技术难点是相关的。
3、索引处理快速、有效且可扩展
搜索引擎抓取并存储页面数据后,还需要进行索引处理,包括链接关系计算、正向索引和反向索引。由于数据库中的页数较多,进行pr等迭代计算既费时又费力。为了提供相关及时的搜索结果,只有爬行是没有用的。同时需要进行大量的索引计算,因为它们会随时添加。新的数据和页面,所以索引处理也应该有很好的可扩展性。
4、快速准确的查询处理是普通用户可以看到的搜索引擎步骤
当用户在搜索框中输入查询并单击“搜索”按钮时,他通常会在不到一秒钟的时间内看到搜索结果。简单的表面处理实际上涉及非常复杂的背景处理。在后期的查询阶段,更重要的问题是如何在不到一秒的时间内,从收录搜索词的数千、数百万甚至数千万个页面中,快速找到更合理、更相关的页面,并根据相关度和权限安排。
5、判断用户意图和人工智能
应该说搜索引擎的前四个挑战可以更好的解决,但是用户意图的判断还处于初级阶段。搜索相同查询词的不同用户可能会找到不同的内容。例如,用户在搜索“苹果”时,是想知道苹果的果实,还是苹果电脑,还是想知道电影“苹果”的信息?还是他想听“苹果”?没有上下文,没有了解用户个人的搜索习惯,他是无法判断的。
搜索引擎目前正在根据用户的搜索习惯、历史数据的积累和语义搜索技术来判断搜索意图,理解文档的真实含义,并返回更多相关结果。