搜狗搜索引擎优化(总体而言,搜索引擎面临以下挑战(一)_光明网(图))
优采云 发布时间: 2022-04-20 13:02搜狗搜索引擎优化(总体而言,搜索引擎面临以下挑战(一)_光明网(图))
一般来说,搜索引擎面临以下挑战。
1、页面爬取需要快速全面
互联网是一个动态的内容网络。每天都有无数的页面被更新和创建,无数的用户发布内容和相互交流,为了返回有用的内容,搜索引擎需要爬取新的页面,但是由于页面数量巨大,搜索引擎蜘蛛需要很长时间一次更新数据库中的页面。当搜索引擎诞生时,捕获和更新周期通常以月来衡量,这就是为什么 Google 在 2003 年之前每个月都会进行一次大更新的原因。
各大搜索引擎现在可以在几天内更新重要页面,并在几小时甚至几分钟内将收录高权重的新文档 网站。不过这种快速收录和更新仅限于高权限网站,很多页面几个月都没有重新爬取和更新的情况并不少见。
为了返回更好的结果,搜索引擎还必须尽可能全面地爬取一个页面,这需要解决很多技术问题,有些网站不利于搜索引擎蜘蛛爬取,比如网站链接结构、Flash、JavaScript 的广泛使用,或者用户在访问该部分之前必须登录的事实,都使搜索引擎更难抓取内容。
2、海量数据存储
一些大的网站在一个网站上有几百万、几千万、甚至几亿的页面,你可以想象一下网上所有的网站页面加起来有多少数据,搜引擎蜘蛛爬取页面后,还必须高效地存储数据。数据结构必须合理,扩展性高,对写入和访问速度要求高。
除了页面数据,搜索引擎还需要存储页面之间的链接以及大量的历史数据,这对于用户来说是难以想象的。据估计,百度拥有超过 340 万台服务器,而谷歌拥有数十个数据中心和数百万台服务器。这种*敏*感*词*的数据存储和访问不可避免地面临许多技术挑战。
我们经常在搜索结果中看到排名无缘无故的上下波动,我们甚至可以刷新页面看到不同的排名,有时,网站数据也会丢失,这可能与*敏*感*词*数据存储和同步技术难点。
3、索引处理快速、高效且可扩展
搜索引擎抓取并存储页面数据后,还需要进行索引处理,包括链接关系计算、正向索引、反向索引。由于数据库中的页面数量巨大,执行pr等迭代计算既费时又费力。为了提供相关及时的搜索结果,仅仅爬取是没有用的,需要同时进行大量的索引计算,因为随时都会添加新的数据和页面,所以索引过程也应该具有良好的可扩展性。
4、快速准确的查询处理是普通用户可以看到的搜索引擎步骤
当用户在搜索框中输入查询并单击“搜索”按钮时,他通常会在不到一秒的时间内看到搜索结果。简单的表面处理实际上涉及非常复杂的背景处理。在后面的查询阶段,更重要的问题是如何在不到一秒的时间内,从几十万、几百万甚至几千万的收录搜索词的页面中快速找到更合理、更相关的页面,并按照相关性和权威性进行排序。
5、判断用户意图和人工智能
应该说,搜索引擎的前四个挑战已经得到了较好的解决,但用户意图的判断还处于起步阶段。搜索相同查询词的不同用户可能会找到不同的内容。例如,在搜索“苹果”时,用户是想知道苹果的果实,还是苹果电脑,或者电影“苹果”的信息?还是他想听“苹果”?没有上下文,没有了解用户的个人搜索习惯,他无法判断。
搜索引擎目前正在判断搜索意图,了解文档的真正含义,并根据用户的搜索习惯、历史数据的积累和语义搜索技术返回更多相关的结果。