【观察者网】专访中科院自动化所所长徐波：构建紫东太初——全球首个三模态大模型，类人智能的大门正在打开----中国科学院自动化研究所

新闻中心

媒体扫描

【观察者网】专访中科院自动化所所长徐波：构建紫东太初——全球首个三模态大模型，类人智能的大门正在打开

发布时间: 2021-07-21

【字体：大中小】

　　人的大脑中，语义是最神秘的。

　　在神经科学实验中，当看一张猴子照片的时候，大脑中视觉关联区域神经活动会更加活跃；听到声音，声音关联区域神经活动会更加活跃。但是当大脑在想象一只猴子的时候，大脑更大片区域都处于激活状态。语义是人工智能技术最难表征和处理的，它是人多个感知模态相互融合、相互关联、相互协同、相互激活的结果。

　　目前，这种多模态互动的认知过程，正在被人工智能学习。

　　7月9日，2021世界人工智能大会（WAIC）昇腾人工智能高峰论坛上，中国科学院自动化研究所所长徐波正式报告了跨模态通用人工智能平台。该平台以全球首个图、文、音（视觉、文本、语音）三模态预训练模型为核心，基于国产化自主AI基础软硬件平台（昇腾）开发实现，向更加通用的人工智能跨出一步。

　　在会后，观察者网对徐波所长进行专访，就人工智能发展的现实意义、多模态大模型的发展现状、中外人工智能的技术对比、三模态大模型的应用案例和未来展望、通用人工智能的路径探索等话题展开讨论。

　　徐波指出，人工智能是一种赋能技术，未来将成为社会经济生活无所不在的“发动机”，而“大数据+大模型+多模态”将改变当前单一模型对应单一任务的人工智能研发范式和产业范式，多模态大模型将成为不同领域的共性平台技术，是迈向通用人工智能路径的探索。全栈国产化通用人工智能平台的实践对中国实现AI领域科技创新、占领核心技术高地具有重要的战略意义。

徐波在昇腾人工智能高峰论坛发表演讲

　　以下是专访实录：

　　记者：我们看到，中国目前在人工智能技术研发投入上可谓是不遗余力，作为人工智能行业专家，您认为持续探索人工智能技术创新之路，对整个产业和社会发展的意义是什么？

　　徐波：人工智能在本质上是一种赋能技术。随着社会的持续发展和进步，人工智能作为社会经济生活的“发动机”，无处不在地推动着多个行业的智能化发展。人工智能在不断与行业进行融合创新的同时，会出现多种形态的变化，呈现出百花齐放的现象。

　　人工智能作为新一轮技术革命和产业变革的重要驱动力，已经改变很多现有的流程、理念、生产方式和组织形式，将进一步解放和发展社会生产力，深度改变人们的思想观念。当前，人工智能正在全方位赋能商业、教育、医疗、制造、交通和社会治理，成为不可或缺的发展引擎。但人工智能的发展创新绝非一帆风顺，短时间内，相关技术还将经历一个艰难爬坡、临界点突破再遇到新瓶颈这样螺旋式发展上升的过程。

　　记者：自从国外OpenAI公司的GPT3、华为公司的盘古等人工智能模型出现以来，无监督学习迅速发展，目前预训练大模型已经发展到了什么阶段？

　　徐波：图灵奖获得者Yann Lecun曾经说过，如果智能是一块蛋糕，那么蛋糕的主体是无监督学习，蛋糕上的糖衣是监督学习，蛋糕上的樱桃是强化学习，而人类对世界的理解主要来自于大量未标记的信息。

　　“蛋糕主体”指的是无监督学习，现在很多人工智能碰到的落地上的可信性和鲁棒性难题，本质是现有AI缺乏语义级认知的问题。认知如同浮在海平面上的冰山。自然语言是冰山浮出水面的部分，而理解自然语言的基础是大量的人类常识、背景知识、领域知识等世界知识，这是冰山水面以下看不到的部分。这些合起来统称为“语义空间”。现有的AI系统很难把这些语义空间加以全面准确的表达。例如，“张三吃大碗”、“张三吃食堂”、“张三吃面条”这三句话。“张三吃大碗”并不是说张三把大碗吃掉，“张三吃食堂”也不是要把食堂吃掉，这种表述背后的逻辑可能是食堂是吃饭的地方，很多人都在食堂吃饭，张三家里可能没做饭，所以在食堂吃饭。对人工智能来说，必须有这些相关的背景知识，才能理解“张三吃食堂”这句对人来讲很容易理解的话。人工智能需要学习很多背景知识才能理解自然语言，这就是“认知冰山”问题，冰山海平面之下才是获得认知的关键。有的人工智能专家把这些大量的背景知识称作人工智能的“暗物质”。怎么把这些“暗物质”挖掘出来放在一个系统里？无监督学习是一条路径。

　　这些“暗物质”隐含存在于我们的图片、日常对话和海量文本中。但是，目前的预训练大多数还是单模态。俗话说，“百闻不如一见”，可能很复杂的语义表述只需要看一张图片就能理解。同时，人类的声音蕴藏着情绪和感情，只有准确捕获这些细节信息，才有可能懂得语言背后真正的含义，而不仅仅是文字表面的意思。那么，我们如何才能同时有效把声音、图片和文字这些信息都整合起来呢？

　　这次，我们在武汉人工智能计算中心算力支持下研发的全球首个三模态大模型“紫东太初”，在实现图、文、音的统一表达方面取得重要进展。已有多模态预训练模型通常仅考虑两个模态，如图像和文本，或者视频和文本，不但忽视了周围环境中普遍存在的语音信息，并且模型不好兼具理解与生成能力，难以在生成任务与理解类任务中同时取得良好表现。我们首次将语音信息引入，并通过一个统一语义空间网络表达生成三模态模型，可以把刚才提到的“认知冰山”或“暗物质”的庞大语义空间学习出来，能更加接近人类真正的感情和思考。特别的，侧重交互功能的语音的加入，使我们的大模型一下子变“活”了，使人工智能迈向更高层次的通用型人工智能方向发展。

　　“紫东太初”三模态训练模型采用了多层次多任务自监督预训练的学习方式，论文已经公开发表。最重要的是我们提出来三模态数据的语义统一表达，可同时支持三种或者任两种模态的若干数据预训练。这个模型不仅可以实现跨模态理解，还能实现跨模态生成，做到理解和生成两个最重要的认知能力的平衡，首次实现以图生音，以音来生图的功能。

　　三模态大模型能够把更多人类与生俱来的东西学习出来，挖掘和表达“认知冰山”水面以下的东西。另外，单模态预训练模型无疑越大越好，但三模态模型的重点更在于探索如何让它更“巧”。三模态大模型要做好还要下很多功夫，但我们已经在正确的方向上迈出了重要的一步。

　　记者：多模态大模型“紫东太初”名称的内涵，是不是包含了某种开天辟地的意义？

　　徐波：可以这么理解，相当于人工智能走向类人智能的一个混沌初开之际，也是感知智能走向通用智能重要的第一步。

　　一个比较有意思的话题是，人工智能领域之外的人，比如哲学、科幻领域，特别喜欢讨论人工智能的一些终极问题，例如机器人可能统治人类，同时涉及一些更高层面的伦理问题。但绝大多数人工智能领域的科学家非常清楚地认知到现有人工智能距离真正的人类智能还相差甚远。

　　在成功研发“紫东太初”三模态模型后，我们似乎感受到比现有人工智能更为强大的通用型人工智能大门正在打开。有时候，我们甚至在思考怎么让人工智能依附一个好的躯体，更好地感知到自然和社会环境中的信息，把类似情绪和情感的信息做进一步的处理，AI将会有更大的发展和比较好的灵活性。这种门槛一旦突破，人工智能的发展很可能会出现指数型的增长。这是一个即将呈现爆发式增长的领域。

　　记者：这个多模态大模型的技术水平，跟国外同行相比怎么样？

　　徐波：“紫东太初”是全球首个三模态大模型。目前，全世界研究单模态大模型（图像、文本）的人比较多，研究语音大模型的相对少一些。我们是少有的同时具备图、文、音研究储备和基础的研究机构。这次自动化研究所系统整理收集了积累多年的多模态数据库，并把图、文、音三个模态统一起来，在一个共同的语义空间去做相互的转换和统一表述，这在全球是首次。通过巧妙地构建一个多模态大模型，我们的图像技术、语音技术和文本技术都超越了现有最好水平。过去业界习惯用有监督的学习，而我们的技术对有标注数据的依赖性较小，改变了人工智能训练需要标注好的大数据的固有模式。

　　首先，业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型是我们三模态模型的基础。比如，视觉的预训练模型，首次实现超越有监督学习的性能，速度比其他的方法提高8倍，在语义分割的结果上，也超越了有监督学习的水平。在中文预训练模型里面提出来任务感知和推理增强的模型，性能相比GPT-3明显提升。语音预训练模型，针对语音领域语种多样、标注成本高的问题，实现了基于语音预训练的多语言、多任务、低资源关键技术的突破，使我们用很少的有标注数据就可以实现语音识别性能的大幅度提升。

　　然后，我们在统一的语义空间网络表达上实现了模态之间的高效协同和相互转换，在多任务上取得了更卓越的性能。在跨模态检索和图文语义转换方面，都比两个模态具有更丰富的表达跟生成能力。语音加入后，我们的大模型可以跟人类做自然流畅的交互。这意味着，我们的人工智能技术在共性的语义空间表征方面取得了重要进展。

　　记者：AI应用场景的碎片化需求，正在成为AI算法落地面临的最大挑战。而三模态大模型能够实现多模态对话，视频播报，以音生图，以图生音，非常有意思。未来是否有可能所有问题都会通过统一的大模型来解决？

　　徐波：我觉得非常有可能。我们人类主要有两种能力，一种是与生俱来的能力，到了一定的年龄，通过基本的学习就能自然地学会说话、走路。另外一种是专业技能，如果要学会弹钢琴、水墨画等，仍然需要长时间的专业训练才能实现，因为这改变了人的特定知识结构。

　　多模态大模型为通用人工智能的研究奠定了非常好的基座。人类基本的知识、常识，看到的一些场景、物体以及从物理世界看到的很多东西，都可以隐藏在这个大模型里面。比如要做语音识别，现在用很小的数据量就可以了，甚至可以逐渐做到不需要有监督的数据学习。

　　预训练模型作为基座模型虽然不是万能的，但是人工智能的研究范式和产业范式也会出现一些变化。比如说，现在产业都在讲算法开源，但算法的维护成本很高，尤其是现在人工智能的人才很稀缺，未来人工智能领域开放的可能是模型，客户获得大模型的接口再稍微加一点数据就能解决问题，即“大模型+小数据”，这是我们未来希望看到的大模型对产业带来的赋能。这个大模型技术从学术成果向产业转化可能还需要一个过程，但我认为不会太久，未来2-4年之内这些新技术都会逐渐得到应用。　

　　记者：能不能具体讲一下紫东太初这个多模态大模型以音声图、以图生音的应用案例？

　　徐波：以图生音为例。可以不经过文本，直接在一个共通语义空间做转换，就是语义到语音的直接合成。以音生图，它不是先识别语音，再做文本的检索，而是直接在一个语义空间里面把这个声音转换成图像。所以我们为什么说这个是通用人工智能路径的探索，就是通过图文音三个模态固化出一个人类非常模糊但是非常有用，只是不知道人类大脑是怎么表达的一个语义空间的表征。

[video:1_1]

以图生音

[video:1_2]

以音生图

　　除此之外，我们还可以给出一个多模态大模型的互动演示，涉及到很多的语音识别，语音合成，包括对图像的描述，中文的续写等等，通过语义空间直接的转换来完成。

[video:小初演示视频]

　　人机对话演示。多模态大模型具备对丰富图文音的理解能力，与单模态的GPT3不同，交流更加自然流畅

　　这一系列的展示，是非常类人的多模态交互。它可以任意输入语音、图像或者文字，去输出语音，图像或文字的任意一种，真正实现三个模态之间的关联跟协同。它们中间就是我们讲的“统一的语义空间”。

　　这里主要表达三个观点，一是“大数据+大模型+多模态”将改变当前单一模型与单一任务人工智能的研发模式，多模态大模型将成为不同领域的共性平台技术。其次，在目前的研究当中，有一种惯性思维是做人工智能都要用大数据，而当知识与数据混合驱动，增强模型的可信、可理解能力后，我相信随着这些技术的发展，人工智能学习对有标注的数据的依赖性会越来越小。

　　此外，国产化通用人工智能具有很高的技术门槛，需要大量的资金与数据的支撑，将使得人工智能的研究规则发生重大变革，对我国实现人工智能领域科技创新，占领核心技术高地具有重要战略意义。以图生音、以音生图的效果甚至出乎我们自己的想象，这也带给我们一些启发，让我们对未来的人工智能又增加了无穷的想象力。所以，多模态大模型人工智能值得我们进一步去探索，值得我们进一步探索更巧结构、更大规模、更强理解能力的模型以及相应的评估标准，也值得我们把这样的技术跟产业需求更好地结合起来。

　　再举一些生活化的例子。比如说，利用大模型可以实现欧洲杯转播的人工智能自动解说；在影视拍摄领域，可以根据剧本的文字自动生成画面和场景，供导演再加工；在教育领域可以根据语义内涵，自动生成画面和声音、甚至生成全新的音乐（而非在既有乐库中选取），类似实现妈妈给孩子讲故事等功能，让人工智能具备初步的想象力和艺术创作力。其实，这与人类大脑工作机制是比较类似的。

　　记者：紫东太初能够快速面世，主要原因都有哪些？

　　徐波：这涉及到多方面的原因。

　　首先，这主要得益于非常强大的基础研究能力。通过多模态实现更加强大的人工智能一直是我们的梦想。从去年开始，在各研究团队单模态大模型取得阶段性成果的基础上，我们组织所内优势力量联合投入开始多模态攻关。第二，我们以中国自主的昇腾人工智能基础软硬件平台为基础，运用包括昇腾芯片和全场景人工智能计算框架MindSpore来打造多模态通用人工智能平台，通过对外交流合作大大加速了这个过程。目前平台具备了三大关键技术（多模态理解与生成的多任务统一建模、面向国产化软硬件的高效训练与部署、多模态预训练模型架构设计与优化），和六项核心能力（多模态统一表示与语义关联、跨模态内容转化与生成、预训练模型网络架构设计、标注受限自监督模型学习、模型适配与分布式训练、模型轻量化与推理加速）。

　　在这里，我要纠正一个误区，模型并不是越大越好。因此，大模型出来以后怎么做轻量化和推理的加速，是我们攻关的重要方向之一。目前的图文音三模态大模型，与单模态和图文两模态相比，可以支撑全场景的人工智能应用，包括像视频配音，语音播放，标题摘要，海报制作，跨模态检索，图像生成等等。

　　此外，三模态大模型跟国产软硬件的技术合作非常关键。未来人工智能将成为人类社会的基础设施，就像现在的水、电、煤一样，必须实现此类技术的自主可控。目前，国内已经具备全栈式基础软硬件条件能力，要做到从“可以用”到“很好用”的成熟生态，需要多方一起合作。

　　记者：作为人工智能领域的国家队，中科院自动化所多模态大模型是如何布局的？

　　徐波：中科院自动化所以打造新时代智能科学与技术战略科技力量作为己任，拥有模式识别国家重点实验室、复杂系统管理与控制国家重点实验室两个人工智能研究平台。依托这两个国家级平台，已经在机器学习、图像与视频、语音与语言、智能机器人、智慧医疗、社会计算等领域取得了丰富的研究成果，获得多项国家级的奖项。

　　我们一直在探索更强大的人工智能，通过多模态实现更加通用的人工智能是其中一条研究主线。通用智能不同于强人工智能，但它至少应该适应不同的环境和任务迁移。我们在已有语音、图像、视频、文本等单模态研究基础上，重点在多模态学习基础理论、多模态语义统一表示、大规模训练平台、多模态数据以及评估标准等方面进行多团队联合攻关。

　　同时，我们不断加强对外合作交流。我们通过跟华为昇腾以及武汉人工智能计算中心的合作，最终使多模态大模型得以问世。通用人工智能之路需要不断探索，而不是坐而论道。只有真正做出一些阶段性成果才能对技术发展路线有更加清晰的认识，也能对未来人工智能的发展有更加清晰的认知。

武汉人工智能计算中心

　　记者：你们在研究多模态大模型的时候有没有考虑到AI的产业化和普惠性的问题？

　　徐波：这个问题仍然需要进一步探讨。现在市场上有大量的音视频处理需求，确实跟我们的多模态信息处理能力很契合。“紫东太初”刚刚诞生，在有些场景下已经开始使用。下一步，我们准备继续优化这个平台，按照节奏规划对外开放。同时，我们将把更多的精力聚焦在多模态大模型上面，把它做的更准确，效率更高、能耗更低。这将为现在的人工智能研发模式和产学研转化模式带来巨大变化。

　　记者：最后一个问题，为什么说研究跨模态人工智能平台是通用人工智能路径的探索？

　　徐波：通用人工智能大家都比较关心，因为它将对现有的人工智能研发范式起颠覆性影响。但是，什么是通用人工智能？是不是就是强人工智能？是不是就是跟人一样的人工智能？这些都还没有特别明确的定义。但是业内普遍认为，通用人工智能要有一种“泛化能力”，一定要用较少的代价去完成多任务的迁移执行。

　　通用人工智能一直是技术界的一个梦想，不同的专家都在从不同的路径去探索。有的人希望通过复制人脑或者受脑启发去实现通用人工智能；DeepMind希望通过进化博弈的方法、最终走向通用人工智能；预训练大模型则是基于数据自监督学习的智能探索。不同路径解决的阶段性问题各有侧重，但最终一定会融合。目前走在最前面的还是多模态大模型，“紫东太初”是最新的尝试，尤其是语义空间的表征突破，会对人工智能实现通用化带来非常大的变化。

　　无疑这扇大门正在打开。

原文链接：https://www.guancha.cn/xubo2/2021_07_20_599120.shtml

附件：