搜索引擎主题模型优化(2.公开行业模型少解决难度构建一个行业搜索NLP模型)
优采云 发布时间: 2021-12-27 21:04搜索引擎主题模型优化(2.公开行业模型少解决难度构建一个行业搜索NLP模型)
简介:开放的搜索NLP行业模型和轻量级的客户定制方案,解决了降低客户标注成本、完全不标注或少量简单标注、搜索领域更易用的问题。
特邀嘉宾:
徐光伟(昆卡)-阿里巴巴算法专家
搜索 NLP 算法搜索链接
这是从查询词到搜索结果的完整环节,其中NLP算法主要在查询分析的第二阶段发挥作用,包括分词、纠错、文本侧实体等多个NLP算法模块。识别、词权重、同义词、语义向量等。系统是结合文本和语义向量多通道召回排序的架构,满足不同业务场景的搜索效果需求。当然,除了查询分析,NLP算法在搜索引导的第一阶段和排序服务的第四阶段也有很多应用。
查询分析
NLP算法在这里主要起到几个子模块的作用:
现在Open Search不仅支持阿里自研的搜索引擎,还兼容开源的ES引擎,让用户更方便的使用我们的算法能力。
行业典范客户痛点
1.常用模型字段适配难
例如:一般领域和电商领域模特的区别
2. 很少有开放的行业模型
解决困难
构建行业搜索NLP模型的过程:
首先,标记数据集的步骤需要非常高的行业知识。同时,对数据量的要求也需要达到万级。标记此类数据也需要几个月的时间。接下来是模型训练。这一步需要专业的算法人员。如果不熟悉算法,模型的迭代效率会很低。最后,模型上线了。这一步需要工程师部署运维。如果涉及到深度模型有些上线,就会有很多效率优化的工作要做。事实上,数据集标注阶段已经存在很多挑战。分词难点
1.高领域知识要求
例如:
2.很难判断交叉歧义
例如:
实体识别和标注难点
1.高领域知识要求
例如:
解决方案
Open Search基于阿里巴巴内部搜索数据积累,结合自动化数据挖掘和自研算法模型,向行业模型构建环节进行了转型。
也以分词和NER为例,下面的模型图就是分词的过程。我们首先使用自动新词发现算法来挖掘目标领域的新词。得到这些新词后,我们将在目标领域建立一个远程监督的训练数据。
基于这样的远程监督训练数据,我们提出了对抗学习网络的结构模型,该结构可以达到降噪的效果,从而在去年得到了我们目标领域的领域模型。
下面的模型图是NER的过程。我们采用图NER结合图神经网络的模型结构,可以整合知识库和标注数据。知识库是刚才分词环节中的新词发现模块自动挖掘出的新词,然后我们做实体词自动标注,构建领域内的知识库。相应的技术论文已经在NLP领域的顶级会议ACL上发表。
综上所述,通过上述技术方案,以电子商务行业为例,看看在开放搜索行业模式上取得的效果。
可见,增强版的开放搜索电商行业明显要比普通版好很多。
这套解决方案不仅适用于电商行业,只要是有数据积累的行业,都可以快速构建出一套行业模型。
开放搜索,轻量级客户定制,客户痛点
首先可以看到,直接使用通用模型大概可以达到60分的效果。
刚才提到的行业模型可以应用到80分的效果。
但是,具体到每个客户,细分中也存在定制问题。普通客户的目标可能是达到 90 分。
例如下面两个例子:
左边的“Vance Soda Series”其实是一款运动鞋的具体品牌和系列名称。虽然开放搜索电商模式可以正确识别品牌和常用词,但对于苏打水具体的细分系列却没有正确识别。右下例为“汉本翠宝味饮”。这里开放搜索的电子商务模式根本没有识别出独特的品牌及其子系列。如果客户在我们提供的行业模型的基础上进行自主定制优化,在引入行业模型解决方案时也会遇到上述的问题。问题,最后很难破85分,
我们的目标是为客户降低贴标成本。没有标签或少量简单的标签,让客户定制更容易使用,从而直接达到85分的效果。
解决方案
整体流程类似于行业模型搭建环节,这些能力产品都必须进行仪表化,让客户可以独立参与调优。
1.新的训练模型
下图是我们制作的一个工具演示。以上是创建模型。部分客户可以选择基础行业模型进行创建,然后上传自己领域未标注的数据,自动开始模型训练。
2.效果评价
以下是客户可以在模型训练后在我们的系统上进行的直观效果评估。可以看到这里会列出基本模型和自动训练后模型效果的变化。客户也可以做少量的手工工作。注释以验证模型的效果。
该链接目前为阿里巴巴内部使用,近期会在开放搜索产品中向客户展示。原来,我们做一个轻量级的客户定制,可能需要一到两个月的时间才能达到上述效果。用 10,000 多个句子标记这些标记数据。现在,基于这个方案,只需要一个星期。完全没有标注或者只需要标注不到1000个标注数据就可以达到这个效果。
轻量化定制效果展示
我们的工具可以自动发现场景中的这些新词,并对这些新词进行实体标签预测。可以看到括号里的这些新词是在不同的上下文中预测的,一个labels的分布指导我们判断这个新词是否是合法的新词以及它所属的实体标签是什么,为我们的模型提供最关键的信息.
地址场景
电商场景
原文链接