在深度神经网络 (Deep Neural Network,DNN) 的帮助下,深度强化学习在许多复杂任务上取得了巨大成功,如游戏或机器人控制等。然而,深度强化学习方式与已知的生物强化学习方式仍然相差甚远,如生物中更多的利用群编码或具有复杂动力学的脉冲神经元来编码,并利用具有生物合理的可塑性学习规则来进一步形成复杂的认知功能。近期,自动化所类脑智能研究中心徐波、张铁林团队,通过将生物系统中多尺度信息的高效编码、细胞集群的时空信息整合机制加入到脉冲神经网络中来,在多类强化学习任务中取得了超过深度强化学习的突出表现。 

  团队在类脑脉冲神经网络(Spiking Neural Network,SNN)的研究方面积累丰富,曾提出包括自组织反向传播算法[Science Advances 2021]、奖赏反馈传播算法[IEEE TNNLS 2021]等在内的一系列脉冲网络高效优化方法。与 DNN 相比,SNN 具有更强的生物合理性,可以支持更多生物学习法则、生物网络结构的启发式应用。因此,团队仍然选择在SNN上加入更复杂的、大脑启发的多尺度动态编码机制,包括网络尺度和神经元尺度,来进一步增强信息的高维状态表征能力,使其在更复杂的弱监督强化学习任务中发挥优势。 

  多尺度动态编码提升的脉冲神经网络(MDC-SAN;图1)模拟了生物大脑中的细胞集群编码机制,并建模网络尺度的群体编码和神经元尺度的二阶动态神经元编码,用于高阶脉冲式的状态表征。经典的策略梯度算法TD3被用来优化MDC-SAN网络,同时为了更好的奖赏学习,在训练学习过程中引入了高精度人工深度Critic网络进行混合训练,并在测试过程中去掉Critic网络。在四个标准OpenAI Gym连续动作空间的学习任务上评估训练好的MDC-SAN,包括Ant-v3、HalfCheetah-v3、Walker2d-v3和Hopper-v3。实验结果表明,多尺度动态编码,包括群体编码和二阶动态神经元的复杂时空编码,都有助于提高 MDC-SAN 的性能。且在相同的参数配置和TD3框架下,取得了优于DNN强化学习的表现(图2)。 

  相关工作Multi-scale Dynamic Coding improved Spiking Actor Network for Reinforcement Learning于今年12月被AAAI 2022接收。博士生张笃振作为第一作者,徐波研究员和张铁林副研究员(共同一作)作为通讯作者,博士生贾顺程参与了部分实验结果的可视化工作。相关工作属于“类脑脉冲神经网络模型与系统”2035创新任务,得到了国家自然科学基金委、先导B等项目的资助。 

1: MDC-SAN模型整体框架 

2 MDC-SAN结果优于传统深度学习方法(DANPop-DAN)和传统脉冲网络方法(LIF

附件: