不惧业内强劲挑战搜狗搜索用技术与算法彰显实力
优采云 发布时间: 2021-08-10 07:22不惧业内强劲挑战搜狗搜索用技术与算法彰显实力
近日,搜狗搜索技术团队在基于自主研发的中文预训练模型的CLUE(Chinese Language Understanding Evaluation Benchmark)任务竞赛中击败了包括华为盘古在内的多个强敌。综合排名和阅读理解榜再次夺得第一,刷新行业记录。
“BERTSG”是搜狗搜索自研模型,“HUMAN”是人的表现(不算玩家)
不惧行业强挑战,搜狗搜索技术和算法尽显实力
作为中文理解领域最权威的评测基准之一,CLUE基于原创中文文本语料共设置了8个竞赛项目,包括文本相似度、分类、上下文推理、阅读理解等。任务构成。此前,搜狗搜索长期以来一直霸占CLUE多任务大赛冠军宝座,但今年4月,却遭遇了来自华为、阿里巴巴法学院等竞争对手的强力挑战。华为甚至用它的2000亿参数模型盘古曾经拿过Lead。
就在近日,搜狗搜索技术团队基于自主研发的中文预训练模型,一举超越华为盘古,再次斩获CLUE总榜、分类榜、阅读理解榜,证明其在自然语义理解领域的实力。技术创新实力和领先的人工智能算法能力。
据了解,搜狗搜索技术团队在过去一年加大了对预训练模型研发的投入。模态预训练模型的研发。搜狗搜索技术团队自研的预训练模型在CLUE列表上的成绩比华为盘古的参数量更大,主要是因为它在训练语料、模型结构、和训练方法。
在训练语料方面,搜狗搜索技术团队依托自身作为第二大搜索引擎的基础优势,首先从万亿网页中筛选出10T优质语料,依托搜狗的内容理解技术和*敏*感*词*聚类系统。此外,2T最终语料是从10T优质语料中选取,这样在保证语料内容质量的同时,也可以保证内容的多样性,提高了模型的训练效率和泛化能力训练语料库。
在模型结构上,原BERT模型采用的是Post-LN结构。这种结构的缺点是如果训练超大模型时不设置warmup,收敛效果会更差。搜狗的预训练模型在结构上采用了Pre-LN,大大提高了训练效率。
在培训方式上,搜狗搜索技术团队做了两个方面的创新和优化。首先,采用交叉思想的预训练方法,引入比较学习和训练方法,解决原创BERT模型学习到的cls token向量的各向异性问题,大大增强了预训练模型的表示能力,使下游任务效果明显提升。其次,加入了文章标题生成和段落顺序预测两个任务,进一步增强了文章预训练模型的理解能力。具体来说,在标题生成任务中,输入一个文章的内容和标题,对文章和标题都做词级掩码操作。 文章mask 策略与 Roberta-wwm 采用的策略相同。标题掩盖了 80% 以上的单词。段落顺序预测任务的目标是预测段落之间的上下文关系。加入这两个预测任务后,预训练模型的效果有了显着提升。