搜索引擎主题模型优化(关键词:搜索引擎发展方向今天很高兴有机会在这里做)
优采云 发布时间: 2021-12-11 01:37搜索引擎主题模型优化(关键词:搜索引擎发展方向今天很高兴有机会在这里做)
关键词:搜索引擎发展方向
今天很高兴有机会在这里做这份题为《搜索引擎研发的难点和发展方向》的报告。几年前,搜狐的地址在建国门附近,是一个商业环境;2003年,公司研发中心在清华同方大厦成立,为公司提供更多的技术支持;2004年,搜狐整体搬迁至清华科技园。基于此,我们看到了一个轨迹:搜狐本身作为一家公司,已经从原来的市场导向转变为现在的技术驱动,并与高校建立了密切的合作关系。
1.搜索和搜索引擎
搜索与搜索引擎的区别在于,搜索引擎是以技术为核心的技术概念和服务;而搜索更加工业化。今天我将重点介绍中文网络搜索遇到的困难和发展方向。
搜狗的成长之路
2003年9月,组建团队;
2004年8月,1.0版本正式发布;
2005年12月,2.5版本正式发布;
预计2006年7月将达到同期行业领先水平。
搜索引擎的研发不同于其他项目。因为它直接依赖于技术,技术和运营密不可分,所以一般来说,搜索引擎应该由商业公司自己开发并投入使用。这里我们需要一个边界来定义哪些任务由研发机构完成,哪些任务由企业完成。只有明确这个界限,才能提高工作效率,才能开发出技术先进、适合市场需求的大型搜索引擎。
2. 搜索引擎面临的挑战
(1)工程
1999年,有人预言搜索引擎的发展是不可能的。由于互联网信息呈指数级增长,检索如此大量的信息是不可能的。但现在,虽然搜索引擎的效果不尽如人意,但至少已经完成了自己的基本功能,在这个领域迈出了一大步。
支持如此复杂的引擎,需要庞大的硬件环境。例如,谷歌在全球拥有超过 140,000 台服务器。如此庞大的系统,在开发、测试、硬件维护等方面都给人们带来了一定的困难甚至挑战。
(2)学术研究
目前,公司已与清华大学建立合作关系,双方优势互补。
在搜索引擎开发过程中,海量数据的处理是一大难题。在研究领域,语言模型可以实现高达97%的识别率;但在实际应用中,面对互联网的海量数据,处理速度受到严重影响,最前沿的技术成果变得无用,导致开发者更倾向于选择效率高、识别率低的技术。
在进行研发工作时,往往需要互联网上的真实数据。采集这些数据在高校很难完成,但在公司很容易获得。同样,很多手工贴标签的工作更适合在公司完成。
工程/运营架构的妥协现在是学术领域和工程领域之间的一个主要问题。例如,研究机构开发的高质量算法在实际应用中不会有很强的可用性,因为算法太复杂,系统太大。
(3)社会方面
首先是垃圾邮件的问题。在互联网上,80%的信息都是垃圾。用户搜索的是准确的信息,公司需要组织团队建立学习系统来处理网络垃圾邮件。
由于搜索引擎难以抓取海量数据,有人考虑在搜索引擎和各种网站之间建立合作关系,由网站自己将数据推送给搜索引擎;或者每个网站都建立了文档来解释他们的有用信息。但这会严重破坏搜索引擎的公平性,大大失去搜索结果的意义,因此没有发展空间。
博客等新事物的出现,也对搜索引擎的发展产生了一定的影响。比如有的Blog的信息比网站的信息更全面,有的则全是垃圾信息,给搜索引擎的检索带来了一定的困难。
三、搜索引擎未来的发展方向
(1) 宽带应用
将互联网上的音视频信息内容组织起来,进行有效的描述,实现高效的存储和传输,是搜索引擎未来的发展方向之一。
(2)互动体验
谷歌改变了用户上网、漫游的浏览习惯,而是将用户需要的信息进行线性排列。未来,导航将成为互联网浏览的主要方式:搜索引擎充分理解用户想要表达的主题,将所需信息按类别排列呈现给用户,增加更多纠错能力,列出错误校正提示。
(3)垂直化和入口占领
未来,搜索引擎将从平行搜索转向垂直搜索,只对某一领域的信息进行精准搜索。这种细化是搜索引擎未来发展的一个方向。所谓入口,是指搜索将成为用户登录互联网的第一道坎,搜索引擎品牌和用户习惯将直接引导市场。
(4)互联网的进步
谷歌不仅在搜索领域处于领先地位,还加入了网站翻译领域并取得了不错的成绩。谷歌之所以能在翻译上取得好成绩,是因为它在其他人无法完成的海量信息方*敏*感*词*有优势。这也是搜索引擎发展的一个趋势。比如在输入法等领域,也可以通过对海量信息的评估,添加传统词典中没有的信息。