一是人工采集,二是智能采集(AIisthenewelectricity,内容可以说是充满诚意非常干货了)

优采云 发布时间: 2021-12-27 23:10

  一是人工采集,二是智能采集(AIisthenewelectricity,内容可以说是充满诚意非常干货了)

  本文由AI新媒体Qubit(公众号:QbitAI)授权转载。如需转载,请联系出处。

  给吴恩达三块白板和一个记号笔,听他上一堂精彩的课。

  刚刚,在O'reilly举办的AI大会上,吴恩达发表了25分钟的演讲。主题依旧是“AI是新电”,但内容可以说是非常诚恳干练。

  人工智能能做什么?

  目前,人工智能技术几乎所有的经济贡献都来自监督学习,即学习从A到B、从输入到输出的映射。

  

  比如输入一张照片,让机器学习判断这张照片是不是你,然后输出0或1。

  现在最赚钱的机器学习应用可以说是在线广告。在这个例子中,输入是广告和用户信息,输出是用户是否会点击广告(或0或1).

  监督学习还可以应用在消费金融领域,输入贷款申请信息,输出用户是否会还款。

  这几年机器学习飞速发展,越来越擅长学习这种A到B的映射,创造了*敏*感*词*的经济效益。

  同时,AI的进步还体现在监督学习的输出不再局限于0或1的数量。

  

  比如语音识别的任务也是一个端到端的学习,输入音频输出文本。只要有足够的数据,语音识别就能取得不错的效果。

  这类算法为语音搜索、亚马逊Alexa、苹果Siri、百度DuerOS等提供了基础。

  还有输入英文输出法文的机器翻译,输入文本输出音频的TTS(Text to Speech)等等,都是监督学习的应用。

  监督学习的缺点是需要大量的标注数据,影响了它的流行度。

  经常有人问我,为什么神经网络存在了这么多年,而人工智能却是近几年才开始快速发展?

  可能很多人都看过我画的这张图:

  

  横轴是数据量,纵轴是算法的性能。

  随着数据量的增加,传统机器学习算法的性能并没有显着提升,而神经网络的性能会显着提升。神经网络越大,性能提升越明显。

  为了达到最好的性能,你需要两件事:一是数据量大,二是大型神经网络。

  还有一个问题。很多人问我:机器学习最大的趋势是什么?算法如何创造价值?

  现在看来,创造最大价值的是监督学习。

  如果你问我监督学习之后会发生什么,我认为迁移学习也开始创造很多经济效益。可能是因为这个概念不够性感,人们不太谈论它。例如,您的算法从 ImageNet 等大型数据集中学习图像识别,然后使用迁移学习将其应用于医学影像诊断。

  而不是监督学习,我认为这是一个非常好的长期研究项目。它还创造了一些经济价值,尤其是在自然语言处理方面。

  强化学习也很有趣。我已经研究了很多年,我还在做这方面的一些小工作。但我认为强化学习的舆论和经济效益有点不成比例。

  强化学习比监督学习更需要数据。很难为强化学习算法获得足够的数据。

  在玩游戏领域,强化学习表现良好。这是因为在电子游戏中,算法可以无限次运行以获得无限数据。

  在机器人领域,我们还可以搭建一个模拟器,相当于让强化学习代理在里面模拟无人驾驶车辆和仿人机器人,无限次重复“游戏”。

  除了游戏和机器人技术,在将强化学习应用于商业和实践之前,还有很长的路要走。

  

  现在,监督学习、迁移学习、无监督学习和强化学习这四种算法所创造的经济效益正在递减。

  当然,这只是目前的情况。计算机科学的新突破每隔几年就会发生变化。这四个领域中的任何一个领域都可能出现突破,而这个秩序可能在几年内不得不重新排列。

  

  我注意到的另一件事是机器学习依赖于结构化数据,这比非结构化数据创造了更多的经济效益。

  以结构化数据为例。比如你的数据库记录了用户交易,谁买了什么,谁给谁发了信息,这就是结构化数据。

  图像、音频、自然语言等都是非结构化数据。

  尽管非结构化数据听起来更有吸引力,舆论也更受欢迎,但结构化数据的价值在于它通常是贵公司独有的。例如,只有您的叫车公司才有用户叫车时间以及他们等了多久。时间就是这样一个数据集。

  因此,不要低估结构化数据结合深度学习可以创造的经济价值。

  在上面提到的几种学习算法中,仅监督学习就为公司和企业家创造了很多经济价值和机会。

  做AI产品需要注意什么?

  一个有趣的趋势是,人工智能的兴起正在改变公司之间竞争的基础。

  公司的壁垒不再是算法,而是数据。

  当我成立新公司时,我会专门设计一个循环:

  

  先为算法采集

足够的数据,让产品上线,然后用这个产品去获取用户,用户会提供更多的数据……

  有了这个循环,对手就很难追上你了。

  有一个明显的例子:搜索公司。搜索公司有大量数据显示用户在搜索这个词时会倾向于点击哪个链接。

  我知道如何构建搜索算法,但如果没有大型搜索公司的数据集,很难想象一个小团队如何构建同样出色的搜索引擎。这些数据资产是最好的屏障。

  工程师还需要意识到这一点:

  人工智能的范围比监督学习要广泛得多。我认为人们通常所说的人工智能实际上包括几种类型的工具:例如机器学习、图模型、规划算法和知识表示(知识图)。

  人们关注机器学习和深度学习,很大程度上是因为其他工具的稳步发展。

  如果我现在建立一个 AI 团队并做 AI 项目,我应该使用图模型,有时还应该使用知识图。但最大的机会在于机器学习。这是过去几年发展最快的领域,取得了突破。

  接下来,我想和大家分享一下我看到问题的框架。

  

  计算机或算法如何知道要做什么?它有两种知识来源,一种是数据,一种是人体工程学。

  要解决不同的问题,应该使用不同的方法。

  例如,在在线广告中,我们拥有如此多的数据,不需要太多的人工工作。深度学习算法可以很好地学习。

  但是在医学领域,数据量很小,可能只有几百个样本。这时候就需要大量的人力,比如使用图模型来引入人类知识。

  也有一些领域我们有一定的数据量,但同时我们也需要人类来做特征工程。

  当然,我不得不说工程师是如何学习的。

  很多工程师都想进入AI领域,很多人都会上网课,但是有一个学习路径被严重忽视了:读论文,复现里面的研究。

  当你阅读了足够多的论文并实现了足够多的算法时,它们都会被内化到你的知识和想法中。

  培养机器学习工程师,我推荐的流程是:先上一门机器学习课程(deeplearning.ai)打好基础,然后看论文,复现结果,也可以通过参加人工智能会议来巩固自己的基础。

  如何成为真正的AI公司?

  我接下来要分享的这个观点可能是我今天要讲的最重要的事情。

  从大约20、25年前开始,我们开始看到互联网时代的兴起,互联网已经成为一个重要的东西。

  我从那个时代学到了一件重要的事情:

  商场+网站≠互联网公司

  我认识一家大型零售公司的 CIO。有一次 CEO 对他说:我们在网上卖东西,亚马逊在网上卖东西。我们是一样的。

  不。

  

  互联网公司是如何定义的?不是你有没有网站,而是你能不能做A/B测试,能不能快速迭代,是否由工程师和产品经理来做决定。

  这就是互联网公司的本质。

  现在我们经常听到人们说“AI公司”。在AI时代,我们还需要知道:

  传统科技公司+机器学习/神经网络≠人工智能公司

  公司里有几个人在使用神经网络,这并不能使你成为一家人工智能公司。必须有更深层次的变化。

  二十年前,我不知道 A/B 测试对互联网公司有多重要。现在,我在思考AI公司的核心是什么。

  我认为人工智能公司倾向于战略性地获取数据。我曾经使用过这样的方法:在一个地区发布产品获取数据,目的是在另一个地区发布该产品,而该产品用于获取数据以在下一个地区发布该产品,以此类推. 所有产品加起来都是为了获取数据来推动更大的目标。

  像谷歌和百度这样的大型人工智能公司的战略非常复杂,并在几年内准备就绪。

  第二点更具战术性,你现在或许可以开始实施:人工智能公司通常有一个统一的数据仓库。

  很多公司的数据仓库很多,而且很分散。如果工程师想把这些数据放在一起做某事,他们可能需要与 50 个不同的人进行沟通。

  所以我认为建立一个统一的数据仓库并将所有数据存储在一起是一个很好的策略。

  此外,广泛的自动化和新的职位描述也是人工智能公司的重要特征。

  例如,在移动互联网时代,产品经理在设计交互式应用程序时可能会画一个线框:

  

  然后工程师去实现,整个过程很容易搞清楚。

  但是假设我们想成为 AI 时代的聊天机器人。这时候如果产品经理画了一个线框说:这是头像,这是聊天泡泡,并不能解决问题。

  聊天气泡是什么样子并不重要,我需要知道的是聊天机器人会说什么。线框对于聊天机器人项目毫无用处。

  如果一个产品经理画了一个无人车的线框图,说“我们想做这个”,那是没有用的。(观众笑)

  在 AI 公司,产品经理需要学会使用数据,并在与工程师沟通时需要精确的反馈。

  英语好的朋友可以挑战完整的英语课堂视频,点击链接到达~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线