在数据为王的时代,NLP数据行业将是下一个蓝海

优采云 发布时间: 2020-08-06 15:21

  只要有机会,就有人进入市场. 不久前,中国人工智能峰会发布了中国50强人工智能技术服务提供商. 不仅有上唐和梅格薇等明星公司,而且名单上仅有的公司. AI数据服务提供商的云测量数据表明AI数据正在进入``主流圈''并试图耗尽蓝海中的独角兽公司.

  当然,前提是该平台可以解决NLP数据的难点.

  事实上,简历的“感知”需求使“体力劳动”有能力完成大多数数据生产任务(不认识汽车或人的人),并且“认知” NLP数据必须突破,但是“体力劳动”长期以来是不够的.

  至少到目前为止,行业参与者已经在四个领域采取了行动,或者正在解决NLP数据难题.

  1. 商业模式,在商业着陆期间使用“定制”迎合NLP

  当媒体向Google工程师提及M-Turk时,他说“我们不敢使用Turk对其进行标记”,因为恢复的数据不均匀.

  众包模式(在公共平台上发布任务并免费申请)曾经是AI数据行业的主流. 它具有数据丰富和多样性的优点,但数据质量更难控制. 在当今对数据细化的需求中,许多需求者已转向“定制”(基于项目的*敏*感*词*方式,以完成分配的数据任务)服务模型.

  例如,云测量数据的“定制”服务模型遵循需求方复杂,复杂和个性化的数据要求. 特定于NLP的数据采集满足特定人群(老人,妇女,儿童),特定场景(家庭,办公室,企业等)和不同方言的语音/文本数据采集要求;数据注释需要连接并清楚地理解场景需要重新分配尽可能具体的规范性指南(出于不同的交流目的,同一句话可能需要标有不同的内容,例如,“我没有钱”表示潜在的客户)信贷服务,但在金融服务中表示拒绝).

  当然,众包模式也有其优势. 它可以以轻量级的方式承载大量相对简单的数据需求,而基于场景的定制模型则更加专业,主要依靠其自己的员工和基地. 例如,云测量数据位于华东,华南和华北都有自建标签基地. 这种游戏方式显然更适合单价较高的基于场景和自定义的需求. NLP是典型的.

  2. 从“广泛制造”到“精益制造”的管理过程

  由于数据采集和标记非常类似于工厂的流水线,因此,如果要提高数据的准确性,实际上是升级过程中从“广泛制造”到“精益制造”的转变制造. 优化管理流程.

  无论是从平台接收任务的众包团队,还是直接连接到需求方的定制服务平台,至少草平台方法已不再适合NLP的数据要求.

  高精度和高效率都依赖于管理流程的优化. 以云测量数据为例,具体措施包括以下一般指导:

  标签,复审和抽样的横向检查: 标签人员的结果由另一组人员复查,不合格者退回,然后由质量检验进行质量检验. 一般来说,步骤可能会更复杂;

  p>

  人才类型的基本分类: 文字,语音和图像注释人员不应相互混合;

  擅长情景的优先任务的分配: 在相同条件下,擅长对应情景的任务被赋予优先任务.

  定期会议系统: 就像制造业的精细管理一样,上午会议,晚上会议,每周会议和每月会议,总结问题并提醒改进.

  ……

  无论如何,无论管理过程有多重要,日常工作的执行都是最重要的.

  3. 职业技能,专业培训摆脱“低级重复”

  “无阈值”表示较低的值. 在人员的个人能力方面,NLP逐渐放弃那些“没有门槛”进入游戏的人,尤其是在特定情况下.

  例如,这是一个非常简单的NLP数据注释示例:

  

  它可能只需要中学语言. 但是,NLP的数据要求已经超出了此类注释的范围.

  例如,当客户服务询问用户是否购买此产品时,标记者“我想与我的家人讨论”,“我会考虑”,“我现在不便,稍后再回电”必须准确地表明它是否是暂时购买,暂时不考虑,拒绝购买或具有更大的兴趣和其他意图.

  一方面,这依赖于平台对场景的深入探索. 这就是为什么将云测量数据智能客户服务的单个场景的意图注释分为10-20个类别和数百个子类别的原因. 根据业务需求,可能还会有更多的标签细分,以便数据标签可以更详细并直接满足需求.

  另一方面,这不能绕过人员能力的持续培训,而不能通过几个月的专业培训将“物理”标签工人转变为专业的业务人员,例如金融服务领域的云调查数据. 从销售人员的角度猜测用户的意图.

  例如,在客户服务通信中,用户反馈“我在驾驶”这个简短的语料数据,可能需要标记“车主”,“驾驶员”,“没有明显的拒绝”,“可能有”兴趣“以及NLP算法还有许多其他标签. 根据云测试数据本身,其培训的目标是使标签人员达到专业人员的水平.

  很明显,在NLP注释数据的初始阶段对大型金融机构的AI客户服务机器人进行了大致相同水平的主要认知智能训练之后,它们需要具有更高的质量才能升级,改善销售转化或服务满意度. ,针对特定需求的更强大的NLP注释数据.

  值得一提的是,在NLP领域,并非所有标签都可以通过人员培训来解决. 医疗和法律等过度专业的领域可能仍依赖专家标签(邀请医生,*敏*感*词*等)来参与标签. 故事很复杂.

  4. 使用工具,不断增加“便利性”

<p>工人要想尽力而为,首先必须改进工具. 尽管NLP标记不像CV那样具有很多空间维度数据要求,但是提高便利性,提高标准效率和准确性的工具的价值仍不容小

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线