国家科学评论 (NSR) 刊发社论：大语言模型和类脑通用智能----中国科学院自动化研究所

科学研究

科研动态

国家科学评论 (NSR) 刊发社论：大语言模型和类脑通用智能

发布时间: 2023-11-15

【字体：大中小】

　　近日，中国科学院自动化研究所徐波研究员和中国科学院脑科学与智能技术卓越创新中心蒲慕明院士在《国家科学评论》（NSR）上发表社论，就以促进更加绿色的类脑通用人工智能为目标，评述如何发展脑启发的类脑神经网络架构、类脑学习算法及基于脉冲编码的类脑计算软硬件等。

　　大语言模型（LLM）的出现以及它们在生成任务中的惊人表现预示着通用人工智能（AGI）新时代的开始。在很大程度上，它们已经通过了经典的图灵测试。通过与机器人结合，大模型将进一步发展出更强大的具身智能。基于大语言模型的各种科学、教育和商业应用正激发人们对未来人工智能的无限遐想。然而，大语言模型存在着大量的连接参数，它们在训练和推理阶段的计算调整和并行推理往往消耗了巨大的算力成本，这个问题将限制大语言模型作为社会基础设施的广泛应用。

　　发展受脑启发的类脑通用智能研究是解决现有问题的一种有效途径。人类大脑是进化过程赋予的一种高效生物神经网络，包含多样的细胞类型和连接模式，且在人类出生后的脑发育过程中通过与环境交互进一步完善并形成高效的连接模式。即使我们不能像图灵曾经提出的那样制造一个“儿童机器”（Child Machine），通用人工智能也仍然可以从两个方面向成熟的大脑学习，即神经网络架构和类脑学习算法。

　　过去的人工神经网络在一定程度上受到了生物脑网络的启发，例如分层和模块化的网络结构，以及可调权重的突触连接。然而，大脑网络实现高效运转不仅仅是更多神经元和突触的堆叠，更重要的是不同神经元类型以及功能模块之间的选择性连接。大脑网络从局部模式到全局拓扑已经启发了当今人工智能中的卷积、循环及多类Transformer等强大神经算子。当前，全脑空间转录组（用于识别不同的神经元亚型）和介观连接组（用于定义特定细胞类型的连接）的研究，为进一步设计更有效的大语言模型网络架构提供了更多的生物依据。

　　突触连接往往通过短时和长时的突触可塑性机制进行神经活动的局部调节。全局神经调质可以在许多突触上发挥作用，以改变局部突触可塑性的能力和特性。类脑学习算法利用大脑发现的多尺度、多形式的突触可塑性，如时序依赖突触可塑性、自组织可塑性传播、神经调制元可塑性等，来决定网络突触权重的动态变化。类脑学习算法也可以通过梯度下降方法与可塑性学习规则相结合，使得在沿用反向传播核心原理同时，解决很多高效计算问题。开发用于大模型权重学习的新算法需要神经科学和人工智能之间的深度融合。

　　同步开发新的网络架构和学习算法将发展出新形式的类脑计算（BIC），即在神经形态芯片上实现生物启发的脉冲神经网络算法（SNN）。在网络和算法层面，SNN使用具有丰富动力学和脉冲模式的生物神经元作为基本计算单元，可以更容易地采用多尺度突触可塑性进行优化。在硬件层面，神经形态芯片需要新一代的非冯诺依曼计算架构，通过借鉴大脑的事件驱动稀疏计算、高度并行运算以及存内计算来降低硬件功耗成本。类脑计算的一个充满吸引力的特质是，在执行推理时，只有一小部分脉冲神经元被激活以参与稀疏加法运算。这种稀疏计算非常适合降低大型人工智能模型的训练和推理成本。

　　社论认为，除了开发绿色和可持续的低功耗人工智能这个紧迫问题，人们也越来越担心未来通用人工智能的发展可能会以有害的方式对人类社会产生重大影响。考虑到存在着政治、社会和文化差异，实现有效的人工智能全球治理不是一个容易实现的目标，但却是人类生存必需迈出的一步。

　　社论链接：https://doi.org/10.1093/nsr/nwad267 　

《国家科学评论》刊发社论

附件：