English 日本語 Русский

多智能体强化学习平台:减小模拟到真实的差距

多智能体强化学习平台:减小模拟到真实的差距

客      户
北京航空航天大学
关  键 词
多智能体协同、强化学习、无人机集群、仿真
被捕捉物
无人机集群

在机器人强化学习领域,模拟到真实转移的问题一直是算法训练和部署中的一项挑战,尤其是对于需要大量数据样本的任务,例如大规模无人机群的协同控制。

北京航空航天大学研究团队所著论文《Air-M: A Visual Reality Many-agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System》提出了Air-M平台,通过NOKOV度量动作捕捉系统建立现实世界到仿真环境的映射,允许真实的无人机通过虚拟传感器与虚拟对象交互,使得策略网络可以使用虚拟代理进行训练,并无缝转移到真实的无人机上。

研究表明Air-M平台在训练效率和可转移性方面优于现有技术,使其成为一个有前景的无人机群应用平台。


引用格式

J. Lou, W. Wu, S. Liao and R. Shi, "Air-M: A Visual Reality Many-Agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System," 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Detroit, MI, USA, 2023, pp. 5598-5605, doi: 10.1109/IROS55552.2023.10341405.

平台架构

Air-M的架构、仿真环境和物理空间如下图所示。

框架1.png

Air-M的主要组件,(a)-AirSim容器提供运动学和动力学模型,以及传感器数据,(b)-蓝图函数提供智能体之间的通信结构,(c)-运动捕捉系统检测到的标记点提供将现实世界映射到仿真环境的映射。

A.  AirSim容器化

研究团队使用Docker来封装AirSim服务器及其依赖,然后将它们打包为一个镜像。此外,将不同场景的静态网格编译为不可编辑的可执行文件,作为环境的背景。当用户启动一个容器时,AirSim将加载本地设置文件以生成指定数量的无人机,暴露端口并提供服务。

a.png

AirSim容器提供RPC服务器和串流服务

B.  虚幻引擎蓝图交互与通信

将AirSim容器中的载具映射到一个共享的仿真环境,并假设它们可以在有限范围内与这些对象进行通信。交互和通信机制通过UE4蓝图实现。

b.png

AirSim容器的可视化以及智能体之间的通信交互机制


C.  物理实验测试平台

研究团队在室内设置一个3*1米的测试场地,按比例映射到仿真系统,通过NOKOV度量动作捕捉系统提供动作反馈,仿真无人机根据运动捕捉数据改变其位置,从而进行强化学习算法评估。

c.png

实验测试平台,包括外部定位系统、无人机控制系统和无人机本体


实验展示

为展示Air-M平台的多功能性,研究团队通过两个综合的训练示例体现其在无人机训练算法中的诸多优势。


任务一:协作搜索

目标是训练一群无人机在街道上寻找人群。无人机通过集中式信息进行离线训练,但在线以分散式方式执行任务。这个示例展示了一个经过训练的无人机群的协同行为。

协作1.png

协作搜索的训练场景为,四架无人机在中心生成,各自的任务区域事先大致安排好。




任务二:捉捕游戏

目标是使用20架训练过的蓝色无人机在规定的时间内找到并捉住20架红色无人机。当无人机发现目标时,它将其位置报告给指挥中心,切换到跟踪算法,并呼叫附近的友军进行协调捕捉。


NOKOV度量动作捕捉系统为研究提供无人机群高精度实时定位数据,帮助建立现实世界到仿真环境的映射,允许真实的无人机通过虚拟传感器与虚拟对象交互,助力大规模无人机群强化学习研究。

作者介绍

楼嘉彬,北京航空航天大学计算机学院博士研究生,主要研究方向:群体智能、多智能体强化学习和群体机器人。

吴文峻,北京航空航天大学,教授,博士生导师。主要研究方向:群体智能与多智能体系统、认知建模与智能导学、智能云服务、智能软件工程等领域。

廖书昊,北京航空航天大学计算机学院博士研究生,主要研究方向:多智能体强化学习和大模型。

石荣晔(通讯作者),北京航空航天大学,副教授。主要研究方向:领域知识内嵌人工智能算法、物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。



IROS 2025 多智能体深度强化学习算法实现Crazyflie无人机在复杂环境中协同追逐

国防科大周晗老师团队在IROS 2025上发表多智能体追逃的知识增强DRL方法,度量动捕提供多架Crazyflie无人机的位置和速度数据,助力验证本文算法。

Scientific Reports:人类拥抱行为分类法及其在人形机器人中的应用研究

多飞行器集联平台的控制与状态估计框架研究

北京理工大学俞玉树老师团队在IEEE RAL,IEEE TRO和IEEE TASE上分别发表关于多飞行器集联平台(Integrated Aerial Platforms, IAPs)的论文,提出IAP的控制和状态估计框架,为飞行操作机器人执行多功能空中操作任务奠定坚实基础。NOKOV度量动作捕捉系统为IAP提供高精度位姿真值数据,助力评估本文方法。

平衡步兵户外日光下轨迹获取

清华大学类脑计算中心使用度量动捕抗日光镜头过滤强光干扰,准确识别平衡步兵(轮足机器人)表面的反光标记点,实时获取高精度运动轨迹。
联系我们
如需更多应用、案例信息或产品报价,请致电 010-64922321,或在下方留言:
机器人/无人机 VR/AR/XR 运动康复 传媒娱乐
北京度量科技有限公司(总部)
Location 北京市朝阳区安慧里四区15号五矿大厦8层820室
Email info@nokov.com
Phone 010-64922321
提交成功!请您耐心等待!
欢迎关注公众号,获取更多信息
关闭