多智能体强化学习样本效率提升方法

北京航空航天大学吴文峻老师、罗杰老师团队在 ECAI 2024 上以“Exploiting Hierarchical Symmetry in Multi-Agent Reinforcement Learning”为题发表关于多智能体强化学习中引入层次对称性的论文。该论文提出层次等变策略网络（HEPN）方法，通过利用层次对称性来提升多智能体强化学习算法的样本效率。

NOKOV度量动作捕捉系统用于获取实时环境状态数据（无人车集群位姿数据），验证了本文算法的性能。

引用格式

Tian, Yongkai, et al. "Exploiting Hierarchical Symmetry in Multi-Agent Reinforcement Learning." ECAI 2024. IOS Press, 2024. 2202-2209.

研究背景

实现高样本效率是强化学习中的一个关键研究领域。在多智能体强化学习（MARL）中，由于联合状态和动作空间的容量随着智能体数量的增加呈指数级增长，这一问题变得极为困难。将对称性引入多智能体强化学习（MARL）是解决这一问题的有效方法。然而，层次对称性的概念——即在多智能体系统（MAS）的不同层级上保持对称性——尚未在现有方法中得到探索。

本文贡献

聚焦多智能体协作任务，本文提出了

1. 利用 MAS 中层次对称性来提高 MARL 算法样本效率的 HEPN方法。HEPN 被设计用来探索和学习 MAS 的层次结构，同时确保严格的对称性属性。

2. 旨在更好地挖掘 MAS 中层次结构的分区损失；

3. 在多个多智能体协作任务中评估了 HEPN 的性能。实验结果表明，HEPN 的收敛速度更快，收敛奖励更高，从而证明了其有效性；

4. 在物理多机器人环境中部署了 HEPN，证实了其在现实世界中的有效性。

官网图1.jpg

图1 本文提出的 HEPN 的整体框架，包含三个主要模块：1）等变聚类模块，用于提取多智能体系统中的层次结构，将具有相似性的智能体聚类成组，作为高层系统中的智能体；2）等变重映射模块，用于将高层系统中的信息重映射回低层系统；3）动作模块，用于生成最终的动作输出。

仿真实验

本文将对称性先验（ESP）、多层感知机（MLP，具体为MAPPO）、图神经网络（GraphSAGE）和基于图的协调策略（GCS）作为基线方法，与本文提出的HEPN方法在不同任务、不同智能体数量等方面进行比较。结果表明，本文方法的收敛速度、收敛奖励和收敛效率优于现有技术，并表现出更高的稳定性，以及处理大规模复杂任务的有效性。同时，通过消融实验证明了层次结构的引入在多智能体系统中的复杂任务中有很大帮助，而等变性的考虑显著提升了算法性能。

官网图02.jpg