■本报记者 沈春蕾 通讯员 刘勇进 

  10月19日,Nature官网刊发谷歌DeepMind关于阿尔法狗(AlphaGo)的最新论文,引起热议。近几年,以深度学习、强化学习为代表的人工智能(AI)理论和技术,已经在许多博弈对抗领域获得成功。2016~2017年,谷歌公司的阿尔法狗击败世界围棋顶级选手;2017年,加拿大阿尔伯特大学开发的DeepStack和美国卡内基梅隆大学开发的人工智能系统Libratus在德州扑克中击败人类顶级玩家;2017年OpenAI公司的人工智能程序在《Dota2》游戏中击败人类顶级玩家。

  这些人机对抗技术也在兵棋推演中获得应用。在中国科学院自动化研究所的智能化大厦里,有一支由青年科研骨干组成的团队——智能人机对抗团队,他们在智能人机对抗领域已经多次小试牛刀,并取得了不错的成绩。

  兵棋推演系统获胜 

  在9月27日举行的2017全国首届兵棋推演大赛上,自动化所研制的人工智能程序“CASIA-先知V1.0”,在“赛诸葛”兵棋推演人机大战中与全国决赛阶段军队个人赛4强和地方个人赛4强的8名选手激烈交锋,以7:1的战绩大胜。

  自动化所智能人机对抗成员范国梁研究员告诉《中国科学报》记者:“该程序展示了人工智能技术在博弈对抗领域的强大实力, 有望推动我国博弈对抗技术的深入发展。”兵棋推演,被誉为导演战争的“魔术师”,主要采取以计算机为载体的电子兵棋系统,推演者可运用统计学、概率论、博弈论等科学方法,对战争全过程进行仿真、模拟与推演,并按照兵棋规则研究和掌控战争局势,增加军队在未来战争中获胜的几率。

  此次“赛诸葛”兵棋推演人机大战采用连级规模城镇居民地遭遇战的对抗想定,人工智能程序和人类选手在完全相同的场景和对等条件下进行指挥对抗。

  同样来自自动化所的智能人机对抗成员兴军亮研究员介绍道,相比人类选手,人工智能程序“CASIA-先知V1.0”能更加快速准确地进行态势判断和策略决策,很少犯低级错误,进而战胜经验丰富的人类高手。

  据悉,“CASIA-先知V1.0”采用知识和数据混合驱动的体系架构,构建了人工智能指挥员模型。目前在态势感知和作战决策的主要模块上采用知识规则+不确定推理的方式,第一步实现了知识驱动的人机对抗和机机对抗系统。

  星际争霸:AI大赛历练 

  10月初的一个周末,由美国人工智能协会(AAAI)所赞助的星际争霸 AI大赛落下帷幕,自动化所智能人机对抗的一支参赛团队获得第四名。

  星际争霸AI大赛是加拿大纽芬兰纪念大学David Churchill组织的年度活动,今年是第八届比赛,比赛的目的是评估即时战略游戏(RTS)对人工智能的意义。

  自动化所有3个AI Bot(软件)参赛。其中,以独立队伍身份参赛的CPAC由张俊格、兴军亮等人完成,其研发的软件采用了知识+数据驱动的模式。另外两个AI Bot由朱圆恒、唐振韬、邵坤、李楠楠和赵冬斌完成,代号分别为Juno和KillAll。其中,CPAC以71.01%的胜率排名第四。

  兴军亮介绍道,《星际争霸》作为一款经典的即时战略游戏,已成为深度学习、强化学习、认知决策等人工智能算法研究和测试的主要平台和工具。“更为重要的是游戏还提供开发者接口,玩家可以编写自己的程序操控游戏,不只是人在玩,还可以用程序去玩。”

  此外,《星际争霸》中包含的科学问题有多智能体协同、策略规划与推理、不完全信息博弈等。相关核心技术可以广泛应用在金融学、经济学、生物学、社会学、计算机科学和军事战略等领域。

  当前,科技巨头争夺“XX智力游戏首胜人类冠军”这一头衔已经越来越激烈化了,人工智能界的下一个目标则是即时战略游戏。今年8月,谷歌旗下人工智能公司(也是 阿尔法狗的创造者)DeepMind 就曾公开宣布,《星际争霸2》将会是其下一个目标。

  范国梁指出,自动化所之所以选择《星际争霸》来历练团队,主要是因为其作为即时战略游戏中的“即时”和“战略”恰恰是人工智能在创新之路上需要挑战的。

  未来,自动化所智能人机对抗团队将进一步对相关核心技术进行深入研究,打造决策与学习能力更强、更快的通用人工智能技术。

  智能技术最终目的是为人服务 

  “无论是兵棋推演,还是星际争霸,此前我们已经在人工智能基础理论和方法领域进行了大量的研究,通过这些平台很好地验证了团队的算法。”兴军亮说,“博弈对抗是人工智能发展的新方向,通过机机对抗系统可以实现对抗数据收集整理,为下一步知识和数据混合驱动的博弈推理学习训练奠定了实验基础。”

  博弈对抗问题广泛存在于军事、商业、安防、灾害应急等领域,大到影响国家战略,小到决定有限资源下的个人竞争。博弈对抗技术已经成为许多领域的标准分析工具之一,在证券学、生物学、国际关系、政治学和其他很多学科都有广泛的应用。

  自动化所智能人机对抗团队的成立也是瞄准上述前沿应用。自去年团队组建以来,现在团队规模已达40人,平均年龄约35岁,团队由杨一平副所长、刘成林副所长负责,成员来自科研业务紧密关联的不同实验室(研究中心),比如范国梁来自综合信息系统研究中心,兴军亮来自模式识别国家重点实验室。

  目前,智能人机对抗团队从基础研究着手,聚焦不完全信息态势感知和群体博弈策略优化的关键技术问题,发展了基于不完全信息态势估计的不确定决策推理技术。这种技术将大大提高博弈对抗的收益和效能,使我国在博弈对抗领域保持与世界先进水平同步。

  《中国科学报》 (2017-10-23 第6版 院所)
 
附件: