不光能读懂文字、图像,还能理解音频、视频甚至3D模型、传感信号,思考起来更像“人”。6月16日,中国科学院自动化研究所发布“紫东太初”全模态大模型。作为升级后的2.0版本,它不仅能力提升,还做到全链条“中国造”,打造出全栈国产化的通用人工智能底座。
何谓全模态大模型?“人的学习受到现实世界中视觉、听觉、触觉、嗅觉等各种信号的综合影响,每一类信号都是一种模态,人类的学习过程是全模态的,但目前最常见的大语言模型仍以文字、图片为主,对音频、视频等信息的识别能力不足。”中科院自动化所紫东太初大模型研究中心常务副主任王金桥介绍,在“紫东太初”诞生之初,科研团队就提出要像养育婴儿一样,为它营造全模态的学习环境。
(资料图片仅供参考)
2021年7月,全球首个千亿参数的多模态大模型“紫东太初”1.0发布,实现图像、文本、语音三类数据相互生成。历经近2年的迭代,“紫东太初”2.0的能力再升级,能“看懂”来自现实世界的影像数据、力触觉、工业传感信号等物联数据,可以像“人”一样综合运用多种信号进行思考。
给出一张救护车图片、一段森林救火视频和一段警笛音频,“紫东太初”能识别并讲述出一段完整的救援过程;而将一张图书馆的照片和汽车鸣笛声音频同时输入,它则快速发现了其中的矛盾,认为这段音频不太可能出现在图书馆场景之中。
在同样的参数量级中,多模态大模型的能力强于纯粹的语言大模型,这意味着“紫东太初”可以用更少的训练数据实现更优的效果,但对科研的挑战更大。王金桥说,得益于团队在多模态数据领域的多年积累,科研人员以语义为桥梁,将音频、视频、物联数据等模态联系起来,“在这条研发路径上,我们走在了世界前列”。
“从算法到硬件、算力,‘紫东太初’都是‘中国造’。”王金桥表示,大模型算法为中科院自动化所自研,以国产化人工智能硬件和框架作为基础,算力则由武汉人工智能计算中心提供支持,“在国产软硬件的支撑下,我们的大模型一样能跑得很好、很快。”
大模型所掌握的数据种类越多,与真实世界的交互能力就越强,在不远的将来,多模态大模型将普惠千行百业。目前,“紫东太初”大模型已在法律咨询、交通出行、医疗健康等领域开始引领性示范,并开放服务平台,支持各行业根据需求“组装”模块,输入行业样本数据产出自主可控的行业相关大模型。中科院自动化所所长徐波表示,未来3至5年,包括“紫东太初”在内的我国大模型技术,将在促进数字经济发展方面发挥重要作用,进一步提升各行业的劳动生产率。
相关新闻
北京出招推动高质量数据产出
本报讯(记者 刘苏雅)近日,一起围绕人工智能大模型训练数据的纠纷受到关注——一家教育科技公司称其掌握的大模型数据被合作伙伴爬取超200万次,对方回应该指控不实。这一事件引发了公众对大模型训练数据的来源合法性、数据隐私安全等问题的讨论。可用于训练大模型的优质数据,是人工智能行业发展的重要基础之一,本市已在大模型产业政策方面率先迈步,未来在需求驱动下,将会有更多高质量数据集走入市场。
数据对人工智能大模型发展的价值毋庸置疑。要训练出高质量的大模型,需要大批量、高质量、多模态的数据支撑。多位业内人士表示,在英文网络中,很多论文、出版物数据是公开或可购买的,这些高质量语料数据正是大模型所需,总量可达万亿字节量级。但国内可用于训练大语言模型的优质公开数据集资源有限,大量数据分散沉睡在各领域,整合利用难。
不算多,但还够用,是中文大模型训练数据的现状。业内专家对记者表示,目前国内已推出的大语言模型产品,中文数据的训练量整体差别不大,模型差异更多体现在算法对数据的处理及数据配比的选取上。如果想获取更多数据,就需花费极高的数据收集和人工标注成本整理公开语料,团队必须拥有极强的工程经验,这是人工智能创业企业发展的难题之一。
为此,在提升人工智能高质量数据要素供给能力方面,北京率先绘出蓝图。日前发布的《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》和《北京市促进通用人工智能创新发展的若干措施》提出,要加强公共数据开放共享,提高公共存量数据处理水平,并完善各类公共数据专区建设,探索公共数据专区授权运营;构建安全合规的开放基础训练数据集,建设高质量的预训练中文语料库,并谋划建设数据训练基地,推动数据要素高水平开放,搭建数据集精细化标注众包服务平台。
“在大模型相关产业领域,北京是国内出台政策速度最快、体系最完整的地区,从算力、技术体系到应用场景等各方面,考虑得比较周到,也有具体的措施。”本市一位人工智能从业者表示,“北京的大模型‘伙伴计划’已经在推进,在市场需求的牵引下,训练数据的数量、质量一定会有改善和进步。”
来源:北京日报 记者 刘苏雅
流程编辑:u032
版权声明:文本版权归京报集团所有,未经许可,不得转载或改编。