人工智能领域最牛X的公司,国外是Google,国内是百度
优采云 发布时间: 2021-05-03 06:28人工智能领域最牛X的公司,国外是Google,国内是百度
自2016年以来,IT行业最大的技术突破应该是人工智能。不仅在一年左右的时间内,而且在上一个游戏项目中,人类都认为机器很难击败人类。甚至在几天前。随着突破天空的AlphaGo Zero的出现,根本无需向人类学习,并且在3天的自学时间中,人类的学习能力已经超越了人类。
人工智能领域最强大的公司是国外的Google和中国的百度。它们都是搜索引擎。这可能不是巧合,而是因为搜索引擎是最适合开发人工智能的公司。它们具有最大量的数据,包括文本,图片,视频,地图,路况,用户使用情况数据等等。
搜索引擎公司的AI结果在多大程度上应用于其核心业务搜索?他们没有一个明确地向外界解释它,从搜索工程师零碎的言论中猜测,至少它没有被*敏*感*词*使用,并且搜索算法的基础没有改变。毕竟,尽管人工智能的概念已经存在了数十年,但近几年来这种影响才得到突飞猛进的发展。通用人工智能尚未出现。在Go规则简单明了的领域中,Niu X已迁移到具有模糊规则的系统,例如Searching将花费一些时间。
但是我认为将人工智能*敏*感*词*地应用于搜索算法将是迟早的事情。据说百度的大型搜索部门与人工智能/深度学习部门之间存在一些矛盾。现在,吴恩达已离开百度,陆奇对百度进行了很多人事调整。搜索部门对人工智能的拒绝可能会大大减少。
事实上,人工智能已被用于搜索算法。举两个例子。
百度DNN模型
在过去的几个月中,我看到了百度朱开华关于“人工智能赋予的搜索和对话交互”的演讲报告。几年前,我接受了朱开华的采访。当时,他是Google的首席架构师,也是著名的Panda算法的主要参与者之一。现在,他是百度的首席架构师。演讲内容很多,全文可以通过搜索感兴趣的标题来找到,值得深入阅读。 SEO行业中很少有人注意到如此长的关于搜索算法的宝贵公共信息,这是出乎意料的。
演讲中提到了百度2013年推出的DNN模型,极大地提高了语义相关性判断的范围和准确性。 2013年,百度相关性增加的34%来自DNN模型,而相关性在整个2014年都增加了。其中25%来自DNN模型。 DNN模型使用深度学习方法。该模型通过100亿用户点击数据进行了训练,并具有超过1亿个参数。下面介绍的Google RankBrain于2015年推出,因此百度是全球第一家将人工智能应用于实际搜索算法的公司。
下图是DNN训练的*敏*感*词*:
简单地说,对于相同的查询,模型将分析实际用户单击的页面的标题和未单击的页面的标题,以便更深入地了解满足哪些标题用户的需求。通常情况下,页面标题不收录查询词,但是用户更愿意单击这些页面,这表明这些页面可以满足用户需求。这些页面的标题,即使它们不收录查询词,也与查询词的含义有关。这是经典的页面关键词相关算法无法计算的。
演讲中提到的例子:
在DNN上线之前,用户搜索“如何在ghibli前面放置车牌”,因为相关信息很少,所以没有以该查询为标题的页面或收录这些信息的页面关键词 ,因此搜索结果的质量并不高。传统的搜索算法只能根据关键词匹配返回一些与吉卜力相关的信息,但是几乎没有关于“如何将车牌放在车顶上”的信息汽车”。
(注意:在此看到的读者不必在百度上搜索“如何在ghibli的前面放置车牌”。您将看到的是被该帖子污染的搜索结果。您将看到此帖子以及被转载和窃。)
DNN上线后的搜索结果如下:
可以看到,搜索结果中仍然没有标题为“如何在吉卜力车头上放置车牌”的页面,但这解决了用户的需求。该算法理解“前”,“前”和“前”的含义。 “在哪里”,“如何安装”,“如何安装”和“任何放置”的含义相同,因此“吉卜力车牌悬挂”页面回答了“如何在吉卜力车前板上放置车牌”的查询。 ,尽管它们收录关键词是不同的。
对相关性的理解不是通过基于关键词匹配的传统搜索算法来计算的,而是通过真实用户的点击数据来告知搜索算法的。当用户搜索“如何将牌照放置在ghibli的前面”时,他们经常单击“如何安装ghibli牌照”和“如何在ghibli的前面安装牌照”页面。经过训练,DNN模型知道这些词在语义上是相关的。
Google RankBrain
2015年推出的Google RankBrain还解决了对查询字词(尤其是长尾字词)的深入理解的问题,并找到了与用户查询不完全匹配但实际上能很好地回答用户查询的页面。它与百度DNN非常相似。 Google未指定RankBrain的训练方法,该方法估计与百度DNN类似。
2015年启动RankBrain时,RankBrain处理了15%的查询字词。因此,在2016年,所有查询词都由RankBrain处理。
Google经常引用的RankBrain示例是此查询:
在食物链中最高级别的消费者的头衔是什么
这个查询词是很长尾的,并且精确匹配的结果相对较少,并且查询中的几个单词容易产生歧义。例如,消费者通常是指消费者,食物链也可以理解为饭店链,但这是完整的查询与购物中心,消费者,饭店等的含义无关。RankBrain可以理解用户实际上是询问食物链顶部的物种名称是什么。同样,搜索结果也无法根据传统的关键词匹配进行处理。
这种长尾查询的数量非常多,而且Google每天收到的查询中有15%从未出现过。这种查询取决于关键词匹配,查找高质量的页面比较困难,数量太小,甚至没有,但是在了解了查询的语义和意图之后,您可以找到满足以下条件的页面:用户需求并且关键词不能完全满足需求。
对SEO的影响将在稍后详细说明,这只是一个简单的提醒:页面应收录关键词,这在当前关键词优化过程中是不可避免的,现在搜索引擎可以理解两个不同的词是相同的。将来在创建或编辑页面内容时,是否需要收录关键词?
2019年2月10日更新:Google工程师Gary Illyes在Reddit举行的问答活动中描述了RankBrain的工作原理:
RankBrain是一个PR-性感的机器学习排名组件,它使用历史搜索数据来预测用户最有可能单击之前未见过的查询的内容。这是一个非常酷的工程,每当使用传统算法时,就无数次地节省了我们的工作,例如,在查询字符串中“哦,看起来不是”!让我们无视它!”,但它通常只是依赖(有时)数月的数据来显示结果页面本身(而不是目标网页)上发生的事情
据我了解,它与百度DNN模型基本相同。对于某些很小的查询词,甚至以前从未出现过的查询词,RankBrain使用历史搜索数据(搜索结果页面上的点击数据,而不是网页本身的数据)来预测用户最有可能点击哪个页面上。