【智能决策论坛系列解读】深度强化学习理论和算法----中国科学院自动化研究所

新闻中心

学术活动

【智能决策论坛系列解读】深度强化学习理论和算法

发布时间: 2021-02-02

【字体：大中小】

　　2020年9月，由中国科学院自动化研究所主办的首届智能决策论坛成功举办，20余位专家学者齐聚线上，围绕智能决策相关研究和应用方向进行了精彩的学术报告与交流研讨。其中深度强化学习理论和算法是本次论坛的热点话题之一，吸引了许多学者的关注。

　　深度强化学习(Deep Reinforcement Learning, DRL)是机器学习的一个分支，相较于机器学习中经典的监督学习和无监督学习问题，其最大特点是在交互中学习（Learning from Interaction），也可认为是一种自监督学习方式。智能体在与环境的交互中根据获得的奖励或惩罚不断学习新知识，进而更加适应环境。深度强化学习的范式非常类似于我们人类学习知识的过程，也正因此，深度强化学习被视为实现通用AI的重要途径。

　　深度强化学习将具有环境“感知”能力的深度学习和具有策略“决策”能力的强化学习融合，形成能够直接处理高维复杂信息作为输入的优化决策方法。深度学习不仅能够为强化学习带来端到端优化的便利，而且使得强化学习不再受限于低维的空间中，极大地拓展了强化学习的使用范围。利用深度强化学习方法，智能体在与环境的交互过程中，根据获得的奖励或惩罚不断地学习知识、更新策略以更加适应环境。

　　目前深度强化学习已经取得了一系列举世瞩目的成就，包括在49个Atari视频游戏上得分超越人类职业玩家水平的DQN算法、完全信息博弈下的围棋AI-AlphaGo，对称开局博弈的国际象棋与日本将棋AI-AlphaZero、部分可观测信息下的第一人称团队协作射击类（FPS）任务、不完全信息即时战略游戏星际争霸II AI-AlphaStar、多人实时在线竞技游戏Dota2 AI-OpenAI Five，以及非完全多人信息博弈麻将AI-Suphx等。在上述复杂环境下的决策任务中，以深度强化学习方法作为核心决策优化算法均已达到甚至超越人类顶尖玩家水平。

　　除游戏之外，近年来深度强化学习正被逐渐应用于许多工程领域，如机器人控制、自然语言处理、自动驾驶、推荐搜索系统等。到目前为止，深度强化学习仍处于兴起阶段，属于人工智能方向的新兴研究领域，拥有广阔的发展前景。

一、基于模型（model-based）的深度强化学习

　　现有的深度强化学习方法，如取得瞩目成果的AlphaGo、AlphaStar等，大都是无模型（model-free）的。这类方法在训练时，需要从系统环境中采集大量的样本数据，训练效果也不一定理想，容易产生数据效率低的问题，可能导致对计算资源与时间成本的浪费。针对这些问题，一些基于模型（model-based）的强化学习方法被提出，基于模型的方法一般先从数据中学习模型，然后再基于学到的模型对策略进行优化，其过程和控制论中的系统参数辨识类似。在实际应用中，这两种方法互有利弊。

　　在本次智能决策论坛中，上海交通大学副教授张伟楠对这两种方法进行了一些比较：基于模型的强化学习具有on-policy、高数据效率等优点，与环境进行较少交互即可达到很好的效果，但它受到模型复合误差的影响，训练结果的最优性不一定能够得到保证；而无模型的强化学习具有最优渐进性能、更适合大数据的优点，却存在着off-policy导致训练不稳定以及较低的数据效率需要大量的交互样本支持等问题。

　　对基于模型的强化学习，张伟楠也给出了一些模型建模的改进方法，如PETS（Probabilistic Ensembles with Trajectory Sampling）：通过一组输出为高斯分布均值和方差的神经网络来建模，采样时先随机采样一个高斯分布，再在高斯分布基础上进行采样得到下一个状态。PETS方法提升了在新数据上的泛化性能，同时也能够捕捉环境输出采样本身的随机性。为了减小基于模型强化学习方法的复合误差，张伟楠提出了一种基于双向建模的BMPO算法（Bidirectional Model-based Policy Optimization），其利用正反双向建模更有效地约束复合误差，然后通过基于玻尔兹曼分布的采样策略和模型预测控制方法来得到更有价值的轨迹，并在理论与实验中证明了BMPO方法在训练速度、采样效率和模型复合误差上都达到了更好的效果。

张伟楠作报告

二、深度强化学习经验的迁移学习

　　在通过深度强化学习方法解决一些问题时，经常会有一些处理类似问题的经验，如果能够在学习目标任务时借鉴这些先验知识，就可以减少所需的数据量，从而提高学习效率。然而当前的深度强化学习算法大多只关注单一任务场景下的决策训练及模型优化，这就导致学习到的基本策略只适用于当前训练环境，无法直接采用先前的数据集和训练模型。如何使强化学习策略利用过去任务中获得的经验是目前的研究难点之一，在本次智能决策论坛中，南京大学副教授章宗长就针对这一问题提出了一种解决思路——将迁移学习与强化学习结合。

　　章宗长在报告中提出了两种迁移强化学习的方法：第一种是基于策略重用的策略迁移框架PTF（Policy Transfer Framework）：在强化学习框架中引入选项模块，即根据输入的经验元组，给智能体输出有价值的源策略知识，并将其用作目标策略的一个补充优化目标。PTF能够学习到将源策略重用到目标策略的最优方案，然后将多策略迁移建模为选项学习问题，并学习到何时终止源策略。章宗长介绍的第二种方法就是贝叶斯策略重用BPR（Bayesian Policy Reuse）算法及其拓展。BPR引入了性能模型、信念等概念，使智能体面对未知任务时，可用贝叶斯方法学习最优的响应策略。在此基础上，还可以将BPR扩展至多智能体系统，使其拥有非稳态环境中的在线学习能力，并能够发现对手的策略切换，在线调整策略。为了克服BPR+算法中存在的仅采用奖励信号更新信念模型、无法应对复杂的马尔可夫博弈过程等问题，章宗长又进一步提出一种深度BPR+算法：采用神经网络作为值函数的逼近器，使用奖赏信号和对手模型更新信念模型；同时使用蒸馏策略网络作为在线策略学习的初始策略，并通过策略存储实现高效空间利用。目前深度BPR+算法已在一些博弈任务中实现了良好的效果。

章宗长作报告

三、非完全信息博弈环境下的深度强化学习

　　非完全信息博弈在许多方面都有重要应用，如棋牌娱乐、金融市场与拍卖类经济活动、军事资源配置与战场调度等。目前许多强化学习方法已经较完备地解决了在完全信息条件下的决策问题，但在非完全信息场景下，一个子博弈的求解或许会与另外的子博弈产生关联，其他智能体的位置状态也会破坏强化学习中马尔可夫过程的基本假设，因此难以求出纳什均衡解。此外，还可能存在一个状态不可分的信息集，使得传统方法难以估计状态值，因而无法区分信息集的状态。为解决上述问题，中山大学副教授余超在本次论坛的报告中介绍了一些可行方法。

　　首先，余超介绍了反事实后悔最小化方法 CFR（CounterFactual Regret Minimization）。CFR与强化学习类似，不同之处在于其需要计算出反事实后悔值，用来表示某个行为带来的效用提升，策略则根据每个信息集的后悔值进行更新，后悔值越大，越能选出较好的动作值。为了提高CFR的效率并降低方差，余超将CFR与神经网络结合起来：一个网络作为后悔值网络，一个网络作为效用值均值网络，然后通过深度学习来训练优势网络。随后，余老师介绍了我们应如何改进现有的强化学习方法令其适用于非完全信息博弈：首先可以对传统的强化学习的机制或训练方式进行提升（如NFSP、RPQ），其次可以将一些搜索和规划的方法引入进来，最后可以对对手进行建模（如UFO）。

　　为了实现深度强化学习在不完全信息博弈中的应用，余超又介绍了一种强化学习的改进算法：NFSP（Neural Fictitious Self Play）。在NFSP中，智能体和博弈中的其他参与者进行交互，并记住自身关于博弈状态转移的经验和行为。NFSP 将这些记忆分成两个数据集，一个通过深度强化学习训练Q网络，一个通过监督学习训练过去的平均策略。在选取动作时，智能体会以一定概率从Q网络和平均策略网络中分别进行策略选择并更新。因此在博弈过程中，智能体可以从这两种混合策略中择优进行选取。

余超作报告

四、讨论与总结

　　深度强化学习在游戏和机器系统上的不断成功吸引着研究者们思考是否能将关键技术和方法应用在更为复杂的决策任务上，例如群体行为的指挥和引导、社会政策的制定和实施等。这类问题典型特点是系统状态空间巨大、动力学模型巨复杂，直接与之交互很难产生大量的有效训练数据。然而近年来随着对这类复杂系统的研究，越来越多的群体模型和社会模型被建立起来，并被证实能够有效反映真实场景的运行过程和演化机制。因而将基于模型的强化学习方法和现有的模型理论相结合，为解决这些复杂群体和社会决策问题提供了技术上的可能。在本次智能决策论坛中，各位专家学者提出的一些深度强化理论和算法有望在不完全信息博弈、多目标任务、动态场景等条件下实现良好的应用效果，这类算法也会成为下一个十年人工智能领域的重要研究方向。

附件：