开发出最先进的机器学习技术,数据至关重要

优采云 发布时间: 2021-03-22 00:11

  

开发出最先进的机器学习技术,数据至关重要

  人工智能发展的主要瓶颈:缺乏高质量的数据集

  用于机器学习的数据的“不合理的有效性”多年来引起了广泛的争议。也有观点认为,限制人工智能(AI)领域的许多重大突破并不是算法不够先进,而是缺乏高质量的数据集。如果您想开发最先进的机器学习技术,那么数据是必不可少的,这是所有讨论的共同主题。

  对于使用机器学习作为其业务核心技术的初创公司,获得高质量培训数据的能力至关重要。尽管许多算法和软件工具都是开源的并且可以共享,但是好的数据集通常是专有的并且很难创建。因此,拥有特定领域的庞大数据集可以成为竞争优势的重要来源,尤其是当初创企业可以快速触发数据网络效应(更多的用户→更多的数据→更智能的算法→更好的产品→更多的用户)时。

  因此,如何为训练学习算法创建高质量的数据集是机器学习初创企业必须做出的重要战略决策。不幸的是,刚开始时,初创公司的标记数据通常非常有限或缺失,这阻碍了它们在创建数据驱动产品方面取得重大进展。因此,在雇用数据科学团队或部署昂贵的核心设施之前,有必要从一开始就研究和开发数据策略采集

  有很多方法可以帮助创业公司克服数据的冷启动问题采集。数据策略/源的选择通常与业务模型的选择,公司的重点(消费者或企业,横向或纵向等)以及融资密切相关。以下是五种数据采集策略。尽管它们并不详尽,并且在一定程度上有所重叠,但是它们可以使您直观地了解许多可用方法。

  策略1:手动工作

  从头开始创建良好的专有数据集几乎总是意味着预先投入大量的人力采集数据来执行难以扩展的手动任务。有许多初创公司依靠蛮力来打开自己的道路。例如,许多聊天机器人初创公司雇用人类作为“ AI培训师”,并让他们手动创建或验证由虚拟助手做出的预测(实际效果各不相同,并且流失率很高)。甚至技术巨头也采用这种策略:Facebook虚拟助手M的所有答案均由合同工团队进行审查和编辑。

  只要数据网络效应在某个时候生效,并且所需的人力不再随着客户数量的增加而增加,那么使用蛮力手动标记数据点的策略就可以成功。一旦AI系统进展得足够快,模棱两可的离群数就会减少,可以减少或保持手工标记的人数不变。

  适用于:几乎所有机器学习创业公司

  示例:

  *许多聊天机器人创业公司(包括Magic,GoButler,x.ai和Clara)

  * MetaMind(手册采集和带有标签的食品分类数据集)

  * BuildingRadar(由员工/实习生手动标记建筑物图片)

  策略2:缩小范围

  大多数初创公司将尝试直接从用户那里获取采集数据,但是问题是,在完全实现机器学习的好处之前,很难说服早期采用者使用该产品(因为需要数据来培训和改进的算法)。避免此难题的一种方法是显着减少问题范围(并在将来必要时进行扩展)。克里斯·迪克森(Chris Dixon)说:“您需要的数据量与您要解决的问题的广度有关。”

  关于缩小范围的好处,聊天机器人再次成为一个很好的例子。该领域的初创企业可以在两种市场进入策略之间进行选择:一种是创建水平虚拟助手,即可以帮助回答许多问题并响应即时请求的机器人,例如Viv,Magic,Awesome,Maluuba和Jam;一种方法是创建一个垂直虚拟助手,即一种致力于极好地完成某些特定任务的机器人,例如x.ai,Clara,DigitalGenius,Kasisto,Meekan和最近的GoButler。尽管这两种方法都是可行的,但解决封闭域问题的初创公司在数据上要容易得多采集。

  适用于:纵向整合公司

  示例:

  *高度专业的垂直聊天机器人(例如x.ai,Clara和GoButler)

  * DeepGenomics(使用深度学习技术对基因变体进行分类和解释)

  * QuantifiedSkin(使用客户自拍照进行皮肤分析)

  策略3:众包

  除了允许合格的员工(或实习生)手动采集并标记数据外,初创公司还可以使用众包。诸如AmazonMechanicalTurk和CrowdFlower之类的平台使用无数在线劳动来消除无效和不完整的数据。例如,VocalIQ使用Amazon MechanicalTurk平台向其虚拟助手输入数千个用户问题。也可以外包人员并雇用其他独立承包商(这是Clara和FacebookM所做的)。采用众包策略的必要条件是必须清楚地说明任务,不要太耗时和无聊。

  另一种方法是鼓励人们自愿提供数据。例如,巴黎的Snips使用此方法来获取某些类型的数据(餐厅,酒店和航空公司确认电子邮件)。像其他初创公司一样,Snips使用游戏化系统,可以在排名中对用户进行排名。

  适用于:易于实施质量控制的用例

  示例:

  * DeepMind,Maluuba,AlchemyAPI和许多其他公司

  * VocalIQ(使用MechanicalTurk平台向虚拟助手教授人类对话的方式)

  *摘录(让人们为研究提供免费数据)

  策略四:副业

  计算机视觉初创企业似乎特别喜欢的一种策略是为特定区域提供面向消费者的免费移动应用程序。 Clarifai,HyperVerge和Madbits都采用了这种策略。他们启动了照片应用程序,以采集更多用于其核心业务的图像数据。

  此策略并非完全没有风险(毕竟,开发和推广应用程序也要花费时间和金钱)。初创企业还必须确保他们创建的用例具有足够的吸引力,以使用户愿意交出其数据,即使该服务在开始时就没有数据网络的影响。

  适用于:企业企业家精神/水平平台

  示例:

  * Clarifai(永远的照片发现应用程序)

  * HyperVerge(照片组织应用程序银色)

  * Madbits(Momentsia照片拼贴应用程序)

  策略五:公开可用的数据集

  许多初创公司都尝试了这种策略,尽管效果各不相同。具体方法是从可公开获取的资源中挖掘数据。网络存档(例如CommonCrawl)收录从多年采集网络信息中获取的免费原创数据,容量为PB。此外,诸如Yahoo和Criteo之类的公司已经向研究社区发布了巨大的数据集(Yahoo已发布了1 3. 5TB的未压缩数据)。随着最近公开可用的政府数据集(由奥巴马政府领导)的增加,免费和开放的数据源变得越来越多。

  一些机器学习创业公司已经在使用这种类型的公共数据。当Oren Etzioni发起Farecast时,他使用了一个收录1. 20,000个价格观察值的样本,他从旅行网站信息中进行了搜索。同样,SwiftKey在一开始就从Internet采集并分析了数TB的数据,以建立自己的语言模型。

  适用于:可以找到相关公共数据集的初创公司

  示例:

  *电视转播(数据的第一版来自旅行网站)

  * SwiftKey(从Internet采集数据以构建语言模型)

  * Jetpac(使用公共Instagram数据开发移动应用程序)

  还有许多本文未提及的其他数据采集策略。初创企业还可以使用多种算法技术来避免数据问题(例如MetaMind使用的转移学习)。无论使用哪种策略,关键都是要获取并拥有特定领域的庞大数据集,以建立高精度模型。这是企业家一开始可以解决的唯一问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线