谷歌五年来最重要的算法更新,影响10%的检索

优采云 发布时间: 2021-05-31 04:40

  谷歌五年来最重要的算法更新,影响10%的检索

  上个月,谷歌宣布使用 BERT 作为谷歌新算法的一部分,这将影响 10% 的搜索。这也意味着这是谷歌五年来最重要的算法更新。

  BERT算法诞生于2018年,此后在AI界引起轰动和关注,尤其是NLP(Natural Language Processing)社区,成为最强大的自然语言处理模型。业界还开发了更多基于BERT或受BERT启发的改进模型,例如百度的ERNIE。

  网上有很多大神介绍BERT的信息,但是因为BERT是基于深度神经网络的,而且起点很高,所以对我们数字营销人员来说太晦涩了。在本文中,我将尝试用白话来告诉您 BERT 是什么。这对我们数字营销人员,尤其是与搜索引擎相关的营销人员意味着什么?

  BERT(来自变压器的双向编码器表示)

  当我们使用谷歌翻译翻译这个全名时,我们会得到transformer的双向编码器表示。这个有趣的名字会让你更在云端,不翻译成变形金刚也不错。 BERT 只是一种制作模型的训练方法。那么模型是什么呢?什么是培训?

  

  建立模型就像制作模具,指定尺寸和形状

  模型就像我们用来制作蛋糕的模具。其中收录各种尺寸参数,这些参数定义了烤饼的形状。我们还可以为特定的自然语言制作模具,让机器预测、翻译或生成的语言可以标准化,听起来像人类的话。通过该模型,我们可以将其应用到句子中的信息,结构,感觉等方面,从而使其更贴近人类,从而完全理解该语言。

  

  对各个参数进行微调和打磨(抱歉图片没选好)

  那是什么训练?训练就是机器学习的过程,也就是机器学习的过程。这就像我们制作模具​​的过程。想象一下我们制作陶器时转动底座的过程。我们用双手挤压它,捏它,使陶瓷胚变成我们想要的形状,然后再烧制。如果我们不满意,我们会再次手动纠正,直到我们满意为止,这就是训练。通常,校正次数越多,首先要进行粗加工,然后再进行精细加工就越接近我们想要的结果。自然语言训练需要用数亿语料来打磨模型。此次打磨就是调整模型的参数,最终得到一个高精度的模型。

  BERT,一种训练语言模型的方法,有一些特点。例如,它不干扰机器学习过程,非常“道”。再比如,它是双向的,既考虑文中所说的,也考虑后面所说的。这就是所谓的“双向”。在训练时,就像在我们的*敏*感*词*中填空或填空。完成问题后,您可以自行更正答案。例如,它会给自己一个很好的(_____)营销,然后填写“数字”。如果觉得对,给自己点个赞(调整参数);如果发现不对,就惩罚自己(调整参数)。除了填补空白之外,BERT还将在小学生语言测试中测试单词顺序,并选择两个句子以查看顺序。这使模型能够验证句子是否是问答。

  BERT 制作的模型怎么样?

  为了建立模型,Google 跑了自己用 BERT 提取的 Wikipedia网站 的 25 亿字加上之前 BooksCorpus 的 8 亿字。调整了多少参数? 3亿(这里的TM不是Trillion,Million纯属感叹)。

  模型诞生后,100%击败了世界上剩下的其他模型,准确率达到了顶峰。谷歌将这种模型用于自己的搜索引擎并不奇怪,谷歌也开源了BERT(请点赞)。微软还表示,他们从 2019 年 4 月开始在 Bing 中使用具有 BERT 模型能力的算法(BERT 论文中大部分是前微软员工)。

  我们可以查看应用Google提供的BERT之前和之后的搜索比较。

  

  BERT 让 Google 更准确

  在应用BERT之前,第一个结果完全相反。问题不是美国公民去巴西是否需要签证,而是巴西公民来美国是否需要签证。

  在应用BERT之前,搜索引擎发现了收录各种关键字片段的网页,并根据排名信号对其进行了排序,无论其具体含义是什么。因此,每个词在搜索词中出现的顺序并不那么重要。

  应用BERT后,算法完全理解用户在问什么,也理​​解网页内容在说什么,最终给出完美的答案。

  BERT 对 SEO 的影响

  因为BERT加强了谷歌对句子的理解,最显着的现象是结果更加准确,尤其是长尾词。市面上的SEO工具一般会跟踪一些搜索量较大的关键词,所以排名波动不明显,但是如果你的自然搜索流量(通常占网站访问量的一半)波动很大,那么你需要检查一下是否这是因为长尾词流量的波动。

  BERT 是对搜索引擎语义理解的增强。它既不是负权重减少算法,也不是正权重增加算法,因此没有什么可以优化的。你只能说,不该是你的你该还,该是你的永远是你的。如果你想用BERT算法在搜索引擎上取得良好的性能,那么请回到满足用户检索意图的基础上,从用户的角度考虑用户需求。另外,BERT的应用简直是对缓和稿件的打击,内容还是原创!

  笔者猜测百度也已经或将使用ERNIE,但由于用户对中文搜索的搜索习惯,整句搜索的比例应该不会像英文搜索那样普遍,预计影响有限。

  伯特和厄尼

  ERNIE(Enhanced Representation through kNowledge IntEgration)是百度优化BERT的产物。

  

  百度这个名字也取了BERT的好朋友ERNIE的名字

  在中文训练中,BERT是以每个汉字为单位进行训练的,所以效果不是很突出。百度的ERNIE真的考虑到了“词”这个范畴,用知识图谱来增强,还学习了新闻信息和论坛对话数据。

  

  实际上,在中文人工智能时代,ERNIE优于BERT

  除了搜索引擎,使用 BERT 的 NPL 还可以应用于其他领域,例如聊天机器人、自动外呼和输入法。

  您还可以看到美团是如何使用 BERT 来理解用户反馈的。

  

  在外卖和酒店场景中推荐美团店点评的理由

  现在我们只用云计算的能力来快速完成机器人的训练。未来在量子计算的支持下,我们不禁担心,不仅仅是营销,整个世界都会变*敏*感*词*与人、人与机器的交流与融合。世界。不难区分“夏天能穿多少”和“冬天能穿多少”的含义。机器不仅能理解语义,还能逐渐产生情感。更重要的是,当我们出生时,我们可能会植入一个芯片来学习我们与外界的互动。人类将以另一种形式永生。

  走得更远,那么,你知道 BERT 是什么吗?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线