说来奇怪,我最常用的搜索引擎是“知乎”

优采云 发布时间: 2022-06-29 09:31

  说来奇怪,我最常用的搜索引擎是“知乎”

  这里指的不是笔者我的经验分享,而是查找他人的经验分享。

  像查找“考研保研经验”、“托福雅思备考经验”、“面试准备经验”时,搜索引擎的不足甚至是很讨厌的部分就体验出来了。

  比如搜索“托福如何备考”,搜索引擎最先列出的是广告。

  百度搜索“托福如何备考”的结果

  在剩下的推荐中,除了有时能搜到知乎外,还有百度知道或者是类营销号式的文章。

  百度搜索“托福如何备考”的结果2

  类营销号式的文章看了和没看一样,而百度知道的回答质量明显又不如知乎。

  知乎搜索“托福如何备考”的结果

  综上,在某专业领域查找问题的答案或者查找经验分享时,我倾向于使用知乎。

  对搜索引擎的畅想

  虽然吐槽了搜索引擎广告多、有些体验不好,但这并不意味着搜索引擎是一个“坑人”的东西。

  如今我们所使用的“互联网”,其中“联”的功能很大程度上都要依赖搜索引擎。

  知乎在某些内容查找方面是比各类搜索引擎好,但正是因为搜索引擎,我们才能够找到各类我们想要的网站、视频、图片。

  写这篇文章的原因,除了想说说知乎外,我还想说说一个让我眼前一亮的搜索引擎——Magi

  网站:

  这是一款由国人团队打造的基于机器学习的信息抽取和检索系统。

  说白了点,是一款采用了机器学习的搜索引擎。

  该搜索引擎可以自己从文本中学习知识。引用官网的话就是:

  “学习过程是在无人干预的情况下 7 x 24 小时不间断运行的,实时新闻事件中的知识一般只需要 5 分钟就会被掌握。随着可交叉验证的信息源不断增加,先前学习到的知识的可信度会被重新评估,使结果中的错误被自动纠正。”

  其除了和其他搜索引擎一样可以搜索网页外,还可以搜索“实体”

  以搜Bilibili(一个视频网站)为例,搜索到的结果如下图

  

  在magi上搜索bilibili的结果

  该搜索引擎会发现bilibili是一个“实体”,确信度是100%

  搜索引擎学习到的bilibili的描述

  接着,它会给出对bilibili的描述、属性、标签等信息。其中,绿色表示十分确定,橙色表示比较确定,红色表示不太确定。

  搜索引擎学习到的bilibili的属性和标签

  在页面的右侧,搜索引擎会告诉你,它从哪些文章学习到了上述的知识。

  知识的主要学习来源

  有趣的一点是,搜索引擎还可以告诉你它从哪些文章学习到了哪些知识。

  magi的学习来源展示

  除此之外,它还可以回答一些问题,找到一些相关内容。

  当然,其学习到的知识也不一定100%准确。尤其是在“属性”那一块,很容易出现啼笑皆非的笑话。如:

  由于magi规模比较小,很多内容搜不到。比如说,我的个人网站……

  搜索不到比较小众的内容

  而且由于体量较小,magi有时搜索到的内容与搜索关键词的相关性不一定很高。

  比如搜索“sigmoid函数”(机器学习的一个概念)。百度等大型搜索引擎能准确地显示一些技术博客。但magi则给出了一个名叫“sigmoid函数”的微博用户的相关信息。

  magi搜索引擎可能会搜到答非所问的内容

  虽然magi有上述这些问题,但我还是觉得其是一个很了不起的搜索引擎。

  在我第一次看到该搜索引擎时,我是处于一种“头皮发麻”的状态。因为其正在实现基于海量文本的自主学习。

  

  而这,这是真正实现“人工智能”的第一步,也是我研究NLP(自然语言处理)领域的初衷。

  当然,如果你问我magi是否会成为一匹黑马,在几年、十几年后成为取代百度的存在吗?我会果断地告诉你:不会。

  百度虽然已经成为了BAT中混得最差的一个,但是

  百度再差,其吸引的都是985,211的人才。

  更何况,百度其实一点也不差。

  这些年,百度在AI领域加大投入,其无人驾驶、PaddlePaddle编程框架、百度云计算平台、研究投入如ERNIE语言模型……

  百度正在努力从互联网巨头转变为AI巨头。

  百度的深度学习平台

  magi搜索引擎想超越百度,需要搜索大量数据、租用大量服务器、雇佣海量人员。而百度想实现magi的功能,只需要调用十几名优秀的员工组成一个项目组,给予其足够的资源即可。

  而且考虑到百度智能云已经提供了各种各样的AI产品,也许实现magi的功能不是什么难事。

  百度智能云 提供的AI产品

  尽管如此,我仍旧觉得magi十分了不起。因为其是一个“先驱者”,其实现了一个令人赞叹的功能,其启发了我对未来搜索引擎的畅想。

  搜索引擎创立之初,搜索内容的排序就是一个很头疼的事情。

  如果按照关键词出现次数多少来排序,关键词出现多的网站先显示,则很可能会搜出一些恶意添加并重复各类无关的关键词,以使自己排名靠前的网站。

  后来google提出了PageRank的算法,从“用户流量”的角度来为网站排序。

  这不能代表排名靠前的就和搜索内容相关。

  针对于各类搜索引擎的排序算法,甚至催生了一个全新的领域网站排名优化:通过对甲方的网站进行优化,使搜索引擎更容易搜到甲方来赚钱。

  但如果随着人工智能的发展,自然语言处理领域有了质的突破的话。我们可以让机器理解互联网中的文本内容,让其像magi一样,学习到文本中的知识。

  这样,搜索引擎再也不用基于关键词推荐、或基于用户流量进行排序,而是可以真正的基于内容进行推荐。

  也许那时,真正的人工智能也不远了吧。

  最后,祝我生日快乐

  11.25.2019

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线