20209月,中国科学院自动化研究所在线上顺利举办了第一届智能决策论坛,其中多智能体算法应用是一个被许多专家学者广泛关注的问题。多智能体算法的核心是解决多个决策主体在合作、竞争、混合博弈环境下,完全与非完全信息、完美与非完美信息等各类条件下,如何做出最优决策,并最大化决策目标的问题。随着人工智能领域的研究从感知智能逐渐深入到决策智能,多智能体算法的应用也变得越来越广泛。下面将结合论坛嘉宾的精彩讲座和相关领域的调研,从政府决策、国防军事、商业与经济、工业领域等方面介绍分析多智能体算法的有关应用。 

  一、政府决策辅助中的应用 

  多智能体算法与博弈论的快速发展能有效助力政府治理能力现代化。政府在资源分配、治安保障、城市建设与运营等方面发挥着关键作用,而这些问题都与多智能体算法和博弈论息息相关,深入发展相关应用研究,能辅助政府决策智慧化高效化。 

  反暴反恐的资源分配。南洋理工大学副教授安波在智能决策论坛上分享了近年来安全博弈论领域的相关研究:巧妙地把安全领域的对抗问题建模成博弈问题,并通过博弈问题的求解对现实决策进行理论指导。反暴反恐是安全博弈十分典型的应用场景,由于安保投入预算有限,难以完全保障所有的目标安全,这时候政府安全部门与恐怖分子之间就形成了博弈关系,政府安全部门希望对有限的资源进行合理的分配来尽最大可能保护人民群众的生命安全与社会秩序,而恐怖分子则会观察安全部门的资源分配,针对最薄弱的部分进行攻击,造成尽可能大的破坏。安波目前的研究将反暴反恐问题转换为斯塔克博格问题,提出了大规模问题下的均衡算法,并且在实践中得到了应用。 

  智慧城市建设。智慧城市核心建设任务是依托大量城市数据,建设智能决策系统,实现资源利用效率的提升。路网协同控制是多智能体算法的经典应用场景,训练得到的协同交通灯控制系统能自动依据交通拥堵情况调节红绿灯占比,在不同道路间调节车流以保持负载均衡,并让同一道路上的不同红绿灯协同形成绿波带,从而大幅提高相同基础设施下的通行效率。除此之外,多智能体算法也研究如何通过协作的交通灯控制来抓捕驾车的逃犯,安波在报告中介绍了通过警方的定位信息,基于多智能体算法的协作交通灯能够使得在逃车辆所在路段附近尽可能拥堵,而警车追逃方向尽可能保持畅通,并且在多辆警车间形成配合,以最快速度构成包围圈,进而提高抓捕的成功率,保障群众生命安全。 

安波作报告

 

  二、国防军事领域中的应用 

  军事对抗可以建模为大量可指挥多智能体构成的复杂系统间的竞争性博弈,多智能体算法在无人机群协同编队、指挥决策、作战支援、资源调度等问题上的应用可有效提升作战效能,增强军事实力,保证国家安全。 

  无人机集群对抗。本次论坛中,西安交通大学教授柯良军围绕无人机集群的背景,描述了其在搜索救援、协同侦察、军事战争、飞行表演等场景下的应用,并详细介绍了多智能体强化学习算法在无人机集群对抗中的相关应用实践。研究聚焦于无人机集群对抗中的疆土守卫博弈问题,即将无人机集群分为红蓝阵营,目标分别是进攻与防守,然后基于平均场理论设计了状态共享、奖励共享、平均动作等机制,并建立了智能体与临近智能体间的协作通信。基于中心训练与分布执行框架得到的策略优于传统方法与已有策略,在对抗中无人机形成了自组织、自适应特点和拟人思维属性,通过感知环境并依据多智能体强化学习训练得到的规则,以及采取攻击、避让、分散、集中、协作、援助等有利策略,在系统整体上涌现出集群对抗的动态特性。 

  三、商业与经济领域中的应用 

  在大数据背景下,企业掌握了越来越多个性化细粒度的信息数据,而多智能体算法能有效利用这些信息,将商业问题建模成多智能体问题,从而辅助进行企业间博弈决策,例如定价策略定制、资源调度决策、违规行为检测、多部门协作分工决策、多模块推荐系统配合策略等,最终提升企业运行效率,创造更多价值。 

  价格战分析。在互联网飞速扩张的背景下,价格战竞争屡见不鲜,如滴滴和uber,美团和饿了么,ofo和摩拜等,这些价格战的逻辑都是通过低价占据市场份额以形成垄断优势从而赚取超额收益,企业需要在有限的补贴预算约束下,对消费者进行个性化补贴以实现市场份额最大化,因此对价格战机制的研究是很有必要的。在本次智能决策论坛中,上海交通大学博士生阎翔将价格战转化为上校博弈,通过合理分配兵力的策略能获得最大的赢面。由于实际问题中竞争对手的补贴预算和每个消费者的偏好是未知的,传统算法并不可行,所以阎翔通过可观测的消费数据结合潜在狄利克雷分布来推测不完美不完全的信息,并结合多智能体算法进行了多轮价格战的最优策略制定,最终在O2O的真实数据集上取得了最好的效果。阎翔也前瞻性地指出价格战是一种降价补贴形式的市场份额竞争,而贸易战则是一种关税提价形式的市场份额竞争,两者有很多相似之处,值得进一步研究。 

  共享出行平台匹配问题。共享出行平台面临的最大问题是乘客出行需求与网约车的供给分布不平衡导致的打车体验不佳,当前主流的解决思路是通过个性化定价或者车辆调遣匹配来解决这种不平衡,但是个性化定价和车辆调遣匹配之间存在着密切关联,定价高低会影响用户最长等待时间,因此可以将两阶段融合考虑,个性化定价可建模成上下文多臂老虎机(Contextual Bandits)问题来推断用户的出价分布,车辆调遣匹配可建模成二部图,通过时序差分的方法学习最优匹配,最终实现出行需求与供给的最优匹配。 

阎翔作报告

  四、工业领域中的应用 

  在数字化和万物互联的大背景下,越来越多的智能单元参与到工业生产与社会生活中,在大家的日常生活正扮演着越发重要的作用。 

  目标追踪与检测。本次论坛中,北京大学博士生钟方威介绍了多智能体强化学习算法在单摄像机主动目标追踪领域的应用。当前,主动目标追踪在工业机器人、无人驾驶领域都有所应用,传统方案一般基于纯视觉的方法定位目标再通过控制方案实现目标追踪,存在障碍物遮挡、人工标注量大等问题。采用强化学习在模拟器中直接训练一个端到端输出动作的策略网络则能有效解决此类问题:通过设计多样的模拟环境,实现虚拟环境训练模型到真实世界的迁移;通过设计一个包含全局信息的强大追踪目标策略对抗网络来规划路径,从而尽可能躲避追踪者的定位,并加强追踪策略的表现效果。 

  多单位的协作任务。钟方威在报告中还介绍了主动目标追踪可应用在多个固定摄像机上,通过协作进行同一目标多角度追踪的研究现状。多个固定摄像机目标追踪的核心思想是:虽然每个摄像机在固定机位下可能无法绕开障碍物或者难以追踪较小的目标,但是在多个摄像机配合的情况下,可以通过其他摄像机对目标的定位辅助确定追踪目标的方位。具体实现上是设计控制方式转换网络,并依据自身的数据定位或其他的摄像头进行协作定位,可基于多智能体算法设计协作定位的控制器,输入其他协作摄像机的位置与姿态生成最佳的追踪角度。相关算法在城市场景数据集下的实验取得了极佳效果,同样的思路也可以扩展到工业生产中多机械臂协作策略的学习。 

钟方威作报告

  五、结束语 

  本次智能决策论坛各位专家学者结合自身的研究方向,分享了多智能体算法目前在政府决策、国防军事领域、商业与经济领域、工业领域、竞技赛事等方面决策问题中的应用进展,并对当前研究中影响应用的主要困难点进行了建设性讨论,对未来更进一步的研究方向和可能的落地应用场景进行了充分的交流。 

  多智能体算法的研究需要结合当前实际问题的重点需求组织攻关,切实解决急迫和困难的实际问题,从而发掘理论的应用价值。例如,在新冠疫情的常态化防疫背景下,国内重点早已从控转向防,如何将防疫预算在各个预防举措、预防阶段上进行有效的配置调度来实现防疫效果最大化?在零星疫情中,如何迅速果决地确定核酸检测的范围,在保证控制疫情的前提下,尽可能降低对生产生活的影响?中美之间在经济、科技、政治等领域摩擦不断加剧,如何在贸易战中制定合理高效的关税政策,进而采取针对性强的反制措施来最小化自身损失、最大化对恶意关税的制裁?这些都需要多智能体算法相关研究的支撑。 

  在各种人工智能技术千帆竞发、百舸争流的智能化时代,多智能体算法无疑是其中一支行驶在最前列的舰队。乘风破浪会有时,直挂云帆济沧海,多智能体算法必将在未来应用中取得更加引人瞩目的成就! 

附件: