优采集平台(上海人工智能联合商汤发布通用视觉开源平台OpenGVLab评测基准)
优采云 发布时间: 2022-03-04 19:01优采集平台(上海人工智能联合商汤发布通用视觉开源平台OpenGVLab评测基准)
今天(25日),上海人工智能实验室联合商汤科技发布了面向学术界和工业界的通用视觉开源平台OpenGVLab,其超高效的预训练模型、超*敏*感*词*的公共数据集和业界首个通用视觉模型。评价基准。
此举将为全球开发者完善各种下游视觉任务模型的训练,推动人工智能技术的规模化应用,推动人工智能基础研究和生态建设的快速发展提供重要支撑。
此次发布的通用视觉开源平台OpenGVLab不仅收录超高效的预训练模型,还收录千万级精细标签和10万个标签的公共数据集;同时发布的评估基准将方便开发者评估不同的通用视觉模型。性能评估水平和连续调整。
上海人工智能实验室相关负责人表示:
开源是一项意义重大的工作。人工智能技术的飞速发展离不开十余年来全球研发人员的开源共建、共享、共享。
希望通过OpenGVLab开源平台的发布,帮助业界更好地探索和应用通用视觉方法,推动人工智能发展中的数据、效率、泛化、认知、安全等诸多瓶颈的系统化解决,推动人工智能科研创新,产业助力发展。
展现出强大的*敏*感*词*性
打麻将、赛车、香槟、熊猫……也许人们可以很容易地看到图片的内容,但人工智能可能不会。
尽管人工智能强大到可以识别一切,但很多 AI 模型只能完成单一任务,比如识别单个物体,或者识别风格更统一的照片。如果你改变类型或风格,你将束手无策。
去年11月,上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布了通用视觉技术系统“学者”(INTERN),很好的解决了这个问题——具备足够的通用性和泛性- 转化能力。
通用视觉开源平台OpenGVLab是建立在“学者”的基础上的。其开源预训练模型具有超高性能和通用性。
具体来说,与目前最强的开源模型(OpenAI于2021年发布的CLIP)相比,OpenGVLab的模型能够全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务,并且具有较高的准确率和数据使用。效率有了很大的提高。
OpenGVLab开源模型推理结果:左侧为输入图像,右侧为识别标签
基于相同的下游场景数据,开源模型在分类、目标检测、语义分割和深度估计四个任务的26个数据集上的平均错误率降低了40.2%和47. 分别。3%、34.8% 和 9.4%。开源模型在分类、检测、分割和深度估计方面优于其他现有的开源模型,只有 10% 的下游训练数据。
使用该模型,研究人员可以大大降低下游数据的成本采集,并且能够以极少的数据量快速满足多场景、多任务的AI模型训练需求。OpenGVLab还提供了多种不同参数和计算的预训练模型,以满足不同场景的应用。
开放千万级精准标注数据集
高性能模型离不开丰富数据集的训练。
除了预训练模型,上海人工智能实验室基于百亿级数据总量,构建了超*敏*感*词*的精细标注数据集,近期将致力于开源数据未来。
超*敏*感*词*精细标注数据集不仅集成了现有的开源数据集,还通过*敏*感*词*数据图像标注任务涵盖了图像分类、目标检测、图像分割等任务。数据总量近7000万。. 开源范围涵盖千万级精细标注数据集和10万级标注系统。
目前,图像分类任务数据集已率先开源,未来还将开源更多目标检测任务等数据集。
对于艺术品,OpenGVLab 预训练模型表现出很强的泛化能力。比如这幅大熊猫画,模特不仅“看出”是“毛笔画”和“水粉画”,而且因为黑白,模特还给出了“阴阳”的猜测。 (yin yang),也体现了数据集标签的丰富程度
同时还有一个超大标签系统,总标签订单量达到10万,不仅覆盖了几乎所有现有的开源数据集,还在此基础上扩展了大量细粒度标签,覆盖各种类型的图像。状态等,极大地丰富了图像任务的应用场景,显着降低了下游数据的成本采集。
此外,研究人员可以通过自动化工具添加更多标签,不断扩展和扩展数据标注体系,不断提升标注体系的细粒度,共同推动开源生态的繁荣发展。
第一个通用视觉基准
随着OpenGVLab的发布,上海AI Lab也开启了业界首个通用视觉模型评测基准,填补了通用视觉模型评测领域的空白。
目前业界现有的评价基准主要针对单一任务、单一视觉维度设计,不能反映通用视觉模型的整体性能,难以用于横向比较。新的通用视觉评估基准通过在任务和数据上的创新设计,可以提供权威的评估结果,促进统一标准的公平准确评估,加快通用视觉模型的工业应用步伐。
在任务设计方面,OpenGVLab提供的通用视觉评估基准创新性地引入了多任务评估系统,可以从分类、目标检测、语义分割、深度估计、和行为识别。. 不仅如此,评估基准还增加了只使用10%的测试数据集的评估设置,可以有效评估真实数据分布下通用模型的小样本学习能力。测试结束后,评测基准也会根据模型的评测结果给出相应的总分,方便用户对不同模型进行横向评测。
随着人工智能与产业融合的深入,产业对人工智能的需求逐渐从单一任务向复杂的多任务协同发展。迫切需要构建一个开源、开放的系统来满足海量应用的碎片化和长尾化需求。
OpenGVLab的开源将帮助开发者显着降低通用视觉模型的开发门槛,以更低的成本快速开发数百个视觉任务和视觉场景的算法模型,高效覆盖长尾场景,促进泛化*敏*感*词*应用人工智能技术。
结尾
鹦鹉螺工作室
作者|高阳
图片|受访者供图
编辑 | 布莱斯