7月29至31日,在首届中国算力大会上,由中国科学院自动化研究所(以下简称中科院自动化所)联合华为技术有限公司打造的“紫东太初”人工智能基础大模型获评“DC Tech创新先锋”优秀成果。
颁奖现场
“紫东太初”人工智能基础大模型获“DC Tech创新先锋”优秀成果
2022中国算力大会是我国算力领域首个全国性会议。作为大会发布的重要奖项,“DC Tech 创新先锋”优秀成果评选旨在从设备技术、软硬件系统、成果应用、能效水平、赋能情况、流程优化等多个方面优中选优,充分发挥典型标杆的示范引领作用。
“紫东太初”是全球首个三模态大模型,开拓性地实现了图像、文本、语音三个模态数据之间的“统一表示”与“相互生成”,理解和生成能力更接近人类,向通用人工智能迈出了重要一步。
当前,研究领域、应用端对AI的需求越来越多样,但AI模型投入使用要完成确定需求、数据收集、模型算法设计、训练调优、应用部署和运营维护等流程,需要大量人力、物力。同时,互联网世界里,90%以上的数据为图像与视频,音频数据也保持高增长,但当下用于预训练的模型大多是以文本、图像为主的单模态或双模态,只能涵盖一小部分数据。因此,推动预训练模型从单模态往多模态方向发展,打通图像、文字、语音壁垒,成为当前人工智能行业关键攻坚点,而多模态预训练模型被广泛认为是限定领域的弱人工智能迈向通用人工智能的路径探索之一。
为此,中科院自动化所以全栈国产化基础软硬件昇腾AI平台为基础,依托武汉人工智能计算中心算力支持,研发面向超大规模的高效分布式训练框架,在图、文、音三个基础模型上加入跨模态编码和解码网络,基于昇思MindSpore AI框架,成功打造三模态大模型“紫东太初”,于去年7月正式发布。
“紫东太初”兼具跨模态理解和生成能力。与单模态和图文两模态相比,其采用一个大模型就可以灵活支撑图-文-音全场景AI应用,具有在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。引入语音模态后的多模态预训练模型,可实现共性图文音语义空间表征和利用,并突破性地直接实现三模态的统一表示,特别地首次使“以图生音”和“以音生图”成为现实,对更广泛、更多样的下游任务提供模型基础支撑,达成AI在如视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。
基于“紫东太初”打造的虚拟人“小初”,目前已拥有视频生成、视频描述、图像生成、智能问答、语音识别等多种能力,可以根据语音描述实现图片与视频自主生成创作。
基于“紫东太初”打造的虚拟人“小初”
此外,国内首个多模态人工智能产业联盟于去年底成立,吸引了新华社技术局、长安汽车、中国移动、千博手语等30个成员单位,通过开源的多模态大模型快速进行自身业务的AI融合创新,基于“紫东太初” 陆续孵化出新媒体内容检索平台、智能座舱、南宋御街数字人、手语教考一体机等场景化行业应用,展现了人工智能大模型的巨大潜力与价值,助推AI研发规则和产业应用模式变革,加速各行业智能化转型实践。