决策智能是国家新一代人工智能的重要发展方向,也是实现国家创新发展战略的重要基石。在决策智能的探索道路上,人机对抗已成为国际公认的重要途径之一。由中科院自动化所智能系统与工程研究中心发布的人机对抗智能门户网站致力于汇聚人机对抗平台环境,共享人机对抗技术成果,发布人机对抗领域最新消息,从而推动人机对抗智能技术生态建设与发展。
近日,自动化所针对星际争霸2游戏开发的一款开源性样例基准AI在人机对抗智能门户网站正式上线。星际争霸2是一款即时战略类游戏,由于兼具大状态空间、大动作空间、实时性、不完美信息博弈等特点,因此无论对于人类玩家还是AI算法来说都是很大的挑战,被学术界广泛用于人工智能算法的训练平台和评估标准。
星际争霸2开源基准AI运行截图
本次发布的开源基准AI以状态、动作空间抽象技术和深度强化学习算法Dueling DQN为基础实现。该开源基准AI提供了完整的样例代码、详细的环境配置指南、命令行使用指南、代码逐段分析文档、训练测试图表及预训练模型。该开源基准AI以实现用户下载后快速读懂代码、进行便捷修改并在合理的时间内利用普通配置的计算机训练出效果为目标定位,并不追求极限跑分。因此,团队对AI进行了以下必要限制:
1. 限制了只进行 TvT(人族对战人族)对战模式。
2. 限制了有限的几种兵种和建筑。
3. 抽象了状态空间、动作空间。
4. 去掉了战争迷雾的设定。
5. 限制只在一张尺寸较正常比赛用图小一些的地图(Simple64)上对战。
6. 限制每局游戏的时长,超时按平局计算。
在实验效果方面,团队利用该AI(基于DuelingDQN的学习型AI)与内置的专门用于辅助训练的随机AI进行对抗训练,该AI经过3000局的对抗训练赢率稳定在100%附近。
人机对抗智能门户网站:http://turingai.ia.ac.cn