博文

兵棋推演的智能决策技术与挑战

已有 3355 次阅读 2021-11-5 17:28 |系统分类:博客资讯

近年来，以人机对抗为途径的智能决策技术取得了飞速发展. 例如，AlphaGo与AlphaStar分别在围棋与星际争霸游戏环境中战胜了顶尖人类选手. 兵棋推演，作为一种人机对抗策略验证环境，由于其非对称环境决策、随机性与高风险决策等特点受到智能决策技术研究者的广泛关注。兵棋推演智能体的研发与评估等智能决策技术获得了长足的发展，但仍面临一系列的挑战，新的技术手段逐渐涌现以实现兵棋推演人机对抗的突破，进而服务于教育等多领域。

尹奇跃, 赵美静, 倪晚成, 张俊格, 黄凯奇, 兵棋推演的智能决策技术与挑战. 自动化学报, 2022, 48(x): xx-xx

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210547

兵棋推演智能决策问题的挑战

回顾智能决策技术在人机对抗环境如雅达利、围棋、德州扑克以及星际争霸中的突破，可以针对当前技术与博弈环境的特点，总结并抽取影响智能体设计突破的关键因素（如表1）。不完美信息博弈、长时决策、策略非传递性与智能体协作挑战之外，兵棋推演具备非对称环境决策，随机性与高风险决策的相对独特问题，对当前的智能决策技术提出了新的挑战。

表1 对智能决策技术带来挑战的代表性因素

兵棋推演智能体研究现状

兵棋推演智能体研发经历了知识驱动、数据驱动以及知识与数据混合驱动的研发历程。知识驱动的兵棋推演智能体引入高水平人类选手的经验形成知识库（如图1），可以一定程度规避前面所述的挑战性问题。在AI研发上可以通过如行为树、自动机等形成态势到决策的制定。知识驱动型的挑战在于缺乏高质量的知识库实现知识建模、表示与学习。数据驱动的兵棋推演智能体以深度强化学习为基础进行策略自主迭代（如图2）。受限于强化学习机制与兵棋推演环境的上述特点，数据驱动型面临着如何设计有效的自博弈或改进自博弈框架、实现异步异构多智能体有效协同、提升强化学习样本效率等挑战。知识与数据混合驱动的兵棋推演智能体结合知识驱动型与数据驱动型的优点，潜在具有超越单种类型驱动的方式，可以采用“加性融合”与“主从融合”等基本方式实现两者结合（如图3）。但是，其面临融合边界如何确定、训练过程中两者相互制约等挑战。

图1 兵棋推演知识库构建示例

图2 自博弈(改进自博弈) + 强化学习训练框架

图3 知识与数据混合驱动框架示例

兵棋推演智能体评估

正确评估智能体的策略对于智能体的能力迭代具有至关重要的作用。研究者提出了一系列算法（如ELO、多维ELO等）实现智能体能力的准确刻画，但仍面临复杂非传递性策略的综合评估、协同智能体中单个智能体的能力评估、定性评估标准体系化等问题带来的挑战。近些年来，上述挑战促进了智能体评估开放平台的建设，例如，中科院自动化所开放了“图灵网”人机对抗智能门户网站（http://turingai.ia.ac.cn/），支持智能体机机对抗、人机对抗、人机混合对抗下多种指标评估评测（如图4）。

图4 “图灵网”平台

兵棋智能决策技术展望

博弈理论，作为研究多个利己个体之间的策略性交互而发展的数学理论，有望为兵棋推演人机对抗突破提供理论支撑，但是面临着如何求解以及保证大规模博弈的近似纳什均衡解的挑战。大模型，近些年来在自然语言处理领域获得了突飞猛进的发展，兵棋推演的大模型训练有望实现类似的零样本或小样本迁移，但是面临着如何进行优化目标设计、多智能体训练以及不同规模任务训练的挑战。问题约简，作为一种引导技术发展的有效手段，本文设计了“排兵布阵”、“算子异步协同对抗”等问题，以牵引算法研究，进而反哺解决兵棋推演人机对抗挑战。

作者简介

尹奇跃

中国科学院自动化研究所副研究员、硕导. 主要研究方向为强化学习、数据挖掘与游戏AI.

E-mail: qyyin@nlpr.ia.ac.cn

赵美静

中国科学院自动化研究所副研究员. 主要研究方向为知识表示与建模、复杂系统决策.

E-mail: meijing.zhao@ia.ac.cn

倪晚成

中国科学院自动化研究所研究员、硕导. 主要研究方向为数据挖掘与知识发现、复杂系统建模、群体智能博弈决策平台与评估.

E-mail: wancheng.ni@ia.ac.cn

张俊格

中国科学院自动化研究所副研究员、硕导. 主要研究方向为持续学习、小样本学习、博弈决策、强化学习.

E-mail: jgzhang@nlpr.ia.ac.cn

黄凯奇

中国科学院自动化研究所研究员、博导. 主要研究方向为计算机视觉、模式识别和认知决策. 本文通讯作者.

E-mail: kqhuang@nlpr.ia.ac.cn

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://m.sciencenet.cn/blog-3291369-1311104.html

上一篇：基于分布式策略的直流微电网下垂控制器设计
下一篇：中国科协 ‖ 自动化领域高质量科技期刊分级目录

收藏分享

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

兵棋推演的智能决策技术与挑战

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

兵棋推演的智能决策技术与挑战

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)