机器学习在搜索引擎效果测试和优化中有哪些应用价值
优采云 发布时间: 2021-06-26 20:23机器学习在搜索引擎效果测试和优化中有哪些应用价值
近年来,大数据已成为信息技术的热点之一。各行各业都在讨论如何利用大数据创造商业价值。一时间众说纷纭,各种大数据应用层出不穷。作为全球最大的中文搜索引擎,百度每天响应来自138个国家和地区的60亿次搜索请求。这是一家拥有大数据的公司。在这个数据为王的信息时代,百度搜索如何应用大数据?大数据在搜索引擎性能测试和优化中的应用价值是什么?
在百度第二期开放研究计划中,南开大学阮兴华和张建中共同承担了IT主题研究项目“机器学习在搜索引擎效果测试与改进中的应用”。据了解,该项目是百度利用大数据分析搜索引擎缺陷、优化搜索引擎的成功案例之一。
据阮兴华介绍,参与“机器学习在搜索引擎效果测试与改进中的应用”项目的成员主要有张欣、李卓、张敏等,以及*敏*感*词*张文、南开大学朱晓曦、他和南开大学张建中教授作为双方的接口,负责项目的实施。
“互联网上的网页数量庞大,内容风格各异,少数网页还存在内容作弊,用户的需求表达方式也各不相同。因此,难免有些搜索结果不好,不能满足用户需求,这种情况下,我们称之为Bad Case,或者说产品缺陷。我们的项目就是通过机器学习自动或者*敏*感*词*地挖掘Bad Case,然后对产品进行针对性的改进;其次,通过对海量数据的分析,找到改进产品的思路和解决方案,推动实现,提升产品的效果和体验。”谈起项目的出发点,阮兴华表示,搜索引擎不会对每个查询都给出最好的结果,存在一些用户需求得不到满足、体验不好的情况,需要分析发现这些基于海量搜索数据的不良案例,推动产品升级改进,让搜索引擎更精准。
在研究过程中,他们发现了很多类型的Bad Case,比如没有官网结果、搜索结果总结不佳或没有总结、相关性差、搜索词纠错等。为此,他们建立了十多个针对大搜索Defect挖掘模型,建立了“用户满意度挖掘模型”、“可寻址搜索挖掘模型”、“纠错词Bad Case挖掘模型”等不同类型的Bad Case挖掘方法。一年来,已挖掘出5万多个产品缺陷,有效推动了产品升级改进,成为产品升级决策的重要参考。
例如,当用户使用搜索引擎查找某个网址时,由于查询词不当、un收录或相关度排名不合理等原因,用户想要的网址可能不会出现在搜索结果中。或者所需的 URL 相对较晚。阮兴华和他的团队所做的部分工作就是找出这些信息,准确地展示真实的官网。只有这部分工作为产品线挖掘了大量精准的官网数据,大大提高了解决需求的满意度,为用户提供了更准确的搜索结果。
"为了让搜索结果更准确,用户体验更好,我们在这个项目中通过数据分析做了很多优化工作,比如用户在百度上搜索刘德华,搜索结果不仅显示刘德华的相关信息,而且在网页右侧,“其他人搜索”显示与刘德华密切相关的人。更贴心的是,在页面底部的“相关搜索”中,有各种搜索与刘德华相关的热门词。我们通过数据分析,针对“其他人搜索”和“相关搜索”区域提出了改进措施,有效提高了这两个区域的点击率。根据我们的数据统计,实体在“其他人搜索”卡片中在进入和退出策略的优化中,我们的项目研究结果给“其他人搜索”带来了11.4%的点击率;搜索”结果,w e 带来了大约 17% 的“相关搜索”结果点击收入。这些数据充分说明我们在大数据挖掘中得到的价值判断是正确的,对网民需求的分析比较到位。”
据悉,“机器学习在搜索引擎效果测试与改进中的应用”项目取得了非常丰富的成果,无论是从技术发展还是人才培养的角度来看,都具有重要意义。 “该项目已取得9项技术成果,发表论文1项,获得相关专利3项。其中一项专利还被评为百度一级专利,我们的项目还获得了百度最高质量总监奖。创新奖,这些成就和荣誉对我们很有激励作用。”阮兴华对“机器学习在搜索引擎性能测试与改进中的应用”项目取得如此丰硕的成果表示欣喜。此外,他还指出,参与该项目的两名实习生张文和朱小希也已通过校招正式加入,即将成为其中一员。而且,通过该项目,百度与南开大学计算机与控制工程学院建立了测试课程合作,加深了外界对测试和百度质量系的了解,也为校企合作培养人才提供了平台这次合作的意外收获。
“一旦我们在项目中发现了Bad Case,我们会对其进行分析和分类并推广解决方案。因此,随着项目的进展,我们的研究成果不断上线应用,为用户提供更准确、更智能的搜索服务及时 “对于研究成果的应用,阮兴华颇为自豪。 “通过2013年一年的研究,我们在基于大数据的搜索引擎缺陷分析和产品改进方面积累了一定的积累。未来我们将进一步优化不同的缺陷。挖掘模型可以在搜索引擎的不同维度发现缺陷更全面更快速,加速产品迭代,让用户使用更智能、更精准的搜索引擎。”