English 日本語 Русский

多智能体强化学习平台：减小模拟到真实的差距

多智能体强化学习平台：减小模拟到真实的差距

客户

北京航空航天大学

关键词

多智能体协同、强化学习、无人机集群、仿真

被捕捉物

无人机集群

在机器人强化学习领域，模拟到真实转移的问题一直是算法训练和部署中的一项挑战，尤其是对于需要大量数据样本的任务，例如大规模无人机群的协同控制。

北京航空航天大学研究团队所著论文《Air-M: A Visual Reality Many-agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System》提出了Air-M平台，通过NOKOV度量动作捕捉系统建立现实世界到仿真环境的映射，允许真实的无人机通过虚拟传感器与虚拟对象交互，使得策略网络可以使用虚拟代理进行训练，并无缝转移到真实的无人机上。

研究表明Air-M平台在训练效率和可转移性方面优于现有技术，使其成为一个有前景的无人机群应用平台。

引用格式

J. Lou, W. Wu, S. Liao and R. Shi, "Air-M: A Visual Reality Many-Agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System," 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Detroit, MI, USA, 2023, pp. 5598-5605, doi: 10.1109/IROS55552.2023.10341405.

平台架构

Air-M的架构、仿真环境和物理空间如下图所示。

框架1.png

Air-M的主要组件，(a)-AirSim容器提供运动学和动力学模型，以及传感器数据，(b)-蓝图函数提供智能体之间的通信结构，(c)-运动捕捉系统检测到的标记点提供将现实世界映射到仿真环境的映射。

A. AirSim容器化

研究团队使用Docker来封装AirSim服务器及其依赖，然后将它们打包为一个镜像。此外，将不同场景的静态网格编译为不可编辑的可执行文件，作为环境的背景。当用户启动一个容器时，AirSim将加载本地设置文件以生成指定数量的无人机，暴露端口并提供服务。

AirSim容器提供RPC服务器和串流服务

B. 虚幻引擎蓝图交互与通信

将AirSim容器中的载具映射到一个共享的仿真环境，并假设它们可以在有限范围内与这些对象进行通信。交互和通信机制通过UE4蓝图实现。

AirSim容器的可视化以及智能体之间的通信交互机制

C. 物理实验测试平台

研究团队在室内设置一个3*1米的测试场地，按比例映射到仿真系统，通过NOKOV度量动作捕捉系统提供动作反馈，仿真无人机根据运动捕捉数据改变其位置，从而进行强化学习算法评估。

实验测试平台，包括外部定位系统、无人机控制系统和无人机本体

实验展示

为展示Air-M平台的多功能性，研究团队通过两个综合的训练示例体现其在无人机训练算法中的诸多优势。

任务一：协作搜索

目标是训练一群无人机在街道上寻找人群。无人机通过集中式信息进行离线训练，但在线以分散式方式执行任务。这个示例展示了一个经过训练的无人机群的协同行为。

协作1.png

协作搜索的训练场景为，四架无人机在中心生成，各自的任务区域事先大致安排好。

任务二：捉捕游戏

目标是使用20架训练过的蓝色无人机在规定的时间内找到并捉住20架红色无人机。当无人机发现目标时，它将其位置报告给指挥中心，切换到跟踪算法，并呼叫附近的友军进行协调捕捉。

NOKOV度量动作捕捉系统为研究提供无人机群高精度实时定位数据，帮助建立现实世界到仿真环境的映射，允许真实的无人机通过虚拟传感器与虚拟对象交互，助力大规模无人机群强化学习研究。

作者介绍

楼嘉彬，北京航空航天大学计算机学院博士研究生，主要研究方向：群体智能、多智能体强化学习和群体机器人。

吴文峻，北京航空航天大学，教授，博士生导师。主要研究方向：群体智能与多智能体系统、认知建模与智能导学、智能云服务、智能软件工程等领域。

廖书昊，北京航空航天大学计算机学院博士研究生，主要研究方向：多智能体强化学习和大模型。

石荣晔（通讯作者），北京航空航天大学，副教授。主要研究方向：领域知识内嵌人工智能算法、物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。

IEEE RA-L 机械臂操纵实时规划方法

研究利用NOKOV度量动作捕捉系统实时追踪障碍物的位置与几何特性，并将这些检测结果拟合为几何原语。度量动捕充当环境感知与几何建模的基础角色，是将真实世界中的障碍物转化为几何参数的关键桥梁。

人形机器人的数据采集与分析

北京人形机器人创新中心使用NOKOV度量动作捕捉系统采集人形机器人关键位置数据。

人形机器人学习太极拳

乐聚人形机器人基于NOKOV度量动作捕捉系统采集的人体太极拳运动数据，开展运动轨迹重定向与仿真迁移技术，实现人形机器人演绎太极拳。

动画还原潮汕非遗英歌舞

潮汕非遗英歌舞动画还原

010-64922321

info@nokov.com

应用领域

机器人无人机 - 无人机、集群和移动机器人 - 机械臂 - 外骨骼 & 可穿戴设备 - 仿生机器人 - 机械手 - 海洋与水下应用 - 医疗机器人 - 位移测量虚拟现实运动康复传媒娱乐

产品

动作捕捉相机

- Mars系列 - 水下动作捕捉相机 - Pluto系列 - Orbit系列动作捕捉软件动作捕捉系统配件 VRT动作捕捉系统套装 AI无标记动作捕捉套件

机器人开发平台

- Crazyflie & Crazyswarm - 多智能体集群编队实验平台

开发者工具

- 多模态数据捕获管理

集成第三方产品

- 查看全部集成产品

技术支持

常见问题技术资讯动作捕捉工作室

资源

经典案例相关论文

关于我们

新闻动态联系我们

Copyright 2015-2024 Beijing NOKOV Science & Technology Co., Ltd. All Rights Reserved.
北京度量科技有限公司版权所有京ICP备15051443-1号

用户须知

English 日本語 Русский

联系我们

如需更多应用、案例信息或产品报价，请致电 010-64922321，或在下方留言：

机器人/无人机 VR/AR/XR 运动康复传媒娱乐

提交

北京度量科技有限公司（总部）

Location

北京市朝阳区安慧里四区15号五矿大厦8层820室

Email

info@nokov.com

Phone

010-64922321

提交成功!请您耐心等待!

欢迎关注公众号，获取更多信息

关闭