English 日本語 Русский

多智能体强化学习平台:减小模拟到真实的差距

多智能体强化学习平台:减小模拟到真实的差距

客      户
北京航空航天大学
关  键 词
多智能体协同、强化学习、无人机集群、仿真
被捕捉物
无人机集群

在机器人强化学习领域,模拟到真实转移的问题一直是算法训练和部署中的一项挑战,尤其是对于需要大量数据样本的任务,例如大规模无人机群的协同控制。

北京航空航天大学研究团队所著论文《Air-M: A Visual Reality Many-agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System》提出了Air-M平台,通过NOKOV度量动作捕捉系统建立现实世界到仿真环境的映射,允许真实的无人机通过虚拟传感器与虚拟对象交互,使得策略网络可以使用虚拟代理进行训练,并无缝转移到真实的无人机上。

研究表明Air-M平台在训练效率和可转移性方面优于现有技术,使其成为一个有前景的无人机群应用平台。


引用格式

J. Lou, W. Wu, S. Liao and R. Shi, "Air-M: A Visual Reality Many-Agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System," 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Detroit, MI, USA, 2023, pp. 5598-5605, doi: 10.1109/IROS55552.2023.10341405.

平台架构

Air-M的架构、仿真环境和物理空间如下图所示。

框架1.png

Air-M的主要组件,(a)-AirSim容器提供运动学和动力学模型,以及传感器数据,(b)-蓝图函数提供智能体之间的通信结构,(c)-运动捕捉系统检测到的标记点提供将现实世界映射到仿真环境的映射。

A.  AirSim容器化

研究团队使用Docker来封装AirSim服务器及其依赖,然后将它们打包为一个镜像。此外,将不同场景的静态网格编译为不可编辑的可执行文件,作为环境的背景。当用户启动一个容器时,AirSim将加载本地设置文件以生成指定数量的无人机,暴露端口并提供服务。

a.png

AirSim容器提供RPC服务器和串流服务

B.  虚幻引擎蓝图交互与通信

将AirSim容器中的载具映射到一个共享的仿真环境,并假设它们可以在有限范围内与这些对象进行通信。交互和通信机制通过UE4蓝图实现。

b.png

AirSim容器的可视化以及智能体之间的通信交互机制


C.  物理实验测试平台

研究团队在室内设置一个3*1米的测试场地,按比例映射到仿真系统,通过NOKOV度量动作捕捉系统提供动作反馈,仿真无人机根据运动捕捉数据改变其位置,从而进行强化学习算法评估。

c.png

实验测试平台,包括外部定位系统、无人机控制系统和无人机本体


实验展示

为展示Air-M平台的多功能性,研究团队通过两个综合的训练示例体现其在无人机训练算法中的诸多优势。


任务一:协作搜索

目标是训练一群无人机在街道上寻找人群。无人机通过集中式信息进行离线训练,但在线以分散式方式执行任务。这个示例展示了一个经过训练的无人机群的协同行为。

协作1.png

协作搜索的训练场景为,四架无人机在中心生成,各自的任务区域事先大致安排好。




任务二:捉捕游戏

目标是使用20架训练过的蓝色无人机在规定的时间内找到并捉住20架红色无人机。当无人机发现目标时,它将其位置报告给指挥中心,切换到跟踪算法,并呼叫附近的友军进行协调捕捉。


NOKOV度量动作捕捉系统为研究提供无人机群高精度实时定位数据,帮助建立现实世界到仿真环境的映射,允许真实的无人机通过虚拟传感器与虚拟对象交互,助力大规模无人机群强化学习研究。

作者介绍

楼嘉彬,北京航空航天大学计算机学院博士研究生,主要研究方向:群体智能、多智能体强化学习和群体机器人。

吴文峻,北京航空航天大学,教授,博士生导师。主要研究方向:群体智能与多智能体系统、认知建模与智能导学、智能云服务、智能软件工程等领域。

廖书昊,北京航空航天大学计算机学院博士研究生,主要研究方向:多智能体强化学习和大模型。

石荣晔(通讯作者),北京航空航天大学,副教授。主要研究方向:领域知识内嵌人工智能算法、物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。



仿生机器人的运动规划

利用NOKOV光学定位跟踪系统,获取精度达1mm的人体下肢运动数据,并建立了准确的关节模型,实现仿生机器人运动规划。

软体机械臂运动

NOKOV度量动作捕捉系统实时提供软体机械臂各节点高精度位姿数据,助力运动学和动力学建模,最终实现软体机械臂的控制。

中科院自动化所多智能体协同控制平台编队与自主避障

中科院自动化所无人集群系统分为三个子系统,定位子系统、通信子系统与控制子系统,可实现单体无人车和无人机控制、地空协同、集群对战以及无人车、无人机编队表演等功能

通过仿生指尖接触事件实现三指机械手的连续自适应步态控制

研究人员在《Biomimetic Intelligence and Robotics》发表了题为《Continuous adaptive gaits manipulation for three-fingered robotic hands via bioinspired fingertip contact events》的文章,探讨了通过仿生方法提升三指机械手灵活性与自适应性的技术。
联系我们
如需更多应用、案例信息或产品报价,请致电 010-64922321,或在下方留言:
机器人/无人机 VR/AR/XR 运动康复 传媒娱乐
北京度量科技有限公司(总部)
Location 北京市朝阳区安慧里四区15号五矿大厦8层820室
Email info@nokov.com
Phone 010-64922321
提交成功!请您耐心等待!
欢迎关注公众号,获取更多信息
关闭