脉冲神经网络(Spiking Neural Network,SNN)被认为是第三代人工神经网络,其中多类型的脉冲神经元含有丰富的历史信息,并通过生成离散脉冲序列的方式来异步、高效地传递时空信息。这些特征在增强SNN信息处理能力的同时也带来了高效优化的挑战。采用全局的梯度反向传播算法(Backpropagation,BP)来直接优化SNN,其学习代价高昂且并不具备生物合理性。与之相比,生物网络中多采用局部的学习方法结合灵活的环路结构来实现高效网络优化。
近期,自动化所类脑智能研究中心张铁林副研究员、徐波研究员等提出生物合理的奖赏传播算法(Biologically-plausible Reward Propagation,BRP),采用宏观的投射通路传递奖赏信息并直接用来约束SNN的局部突触学习,在网络结构改善局部学习方面取得了重要进展。研究团队提出的BRP方法将奖赏信号通过弥散矩阵编码并直接映射传播到所有的隐藏层神经元(图1)。弥散矩阵的设计模拟了大脑中皮质柱的从顶到底的反向调控,可以将奖赏信息直接“升维/扩散”到脉冲前馈、脉冲卷积等多类神经计算单元,并进一步结合局部的可塑性机制实现自组织的突触学习。
此次设计的类脑奖赏传播BRP算法,正是利用了生物中常见的从顶到底的调控投射结构,该结构按照均匀随机分布的原则进行设计,且在可学习和不可学习状态下,都能以极低的能耗达到和传统BP相近的精度。这对新一代类脑人工智能模型的研究有极大的促进,也反向验证了生物计算的简洁性、高效性。
相关工作Tuning Convolutional Spiking Neural Network With Biologically Plausible Reward Propagation于今年6月在线发表于IEEE Transactions on Neural Networks and Learning Systems(IEEE-TNNLS)期刊。张铁林副研究员作为第一作者,徐波研究员作为责任作者,团队成员博士生贾顺程(共同一作)和程翔参与了该工作的具体实现。相关工作得到了国家自然科学基金委、先导A、先导B等项目的资助。
图1:脉冲卷积编码和奖赏传播算法。(a),脉冲卷积编码中的双时钟设计。(b), 脉冲卷积编码和人工卷积编码的对比差异。(c),结构依赖的奖赏传播算法用于多层SNN学习,含有卷积、前馈等多类型结构。