近日,上海交通大学董伟老师团队联合阿联酋MBZUAI左星星老师团队在机器人顶刊IEEE T-RO发表题为《Flying Co-Stereo: Enabling Long-Range Aerial Dense Mapping via Collaborative Stereo Vision of Dynamic-Baseline》的论文。该论文提出了飞行协同立体视觉系统,通过两架无人机的宽基线协同配置,实现了最远70米的稠密三维建图,相对误差为2.3%至9.7%。NOKOV度量动作捕捉系统提供无人机高精度位姿数据,助力验证本文提出的相对位姿估计算法精度。
Z. Wang, X. Zuo and W. Dong, "Flying Co-Stereo: Enabling Long-Range Aerial Dense Mapping via Collaborative Stereo Vision of Dynamic-Baseline," in IEEE Transactions on Robotics, vol. 42, pp. 951-970, 2026, doi: 10.1109/TRO.2026.3658293.
无人机在大规模未知环境中安全导航需要远距离感知能力。与激光雷达相比,立体相机具有高性价比、轻量化的优势,但传统立体相机受限于短固定基线,感知范围通常不超过20米。现有宽基线系统体积过大,无法适配小型无人机;而将立体相机分布在两架动态飞行的无人机上,又面临基线动态变化、特征关联困难等挑战。

本文提出的CDBSM框架下的飞行协同立体视觉系统架构
1) 提出飞行协同立体视觉系统,通过两架协同无人机在统一的协同动态基线立体建图框架下构建宽基线跨无人机立体视觉系统,实现大规模未知环境中的远距离稠密建图;
2) 开发双光谱视觉惯性-测距估计器,在复杂室外环境下实现无人机之间动态基线稳健、精确的在线估计;
3) 设计混合视觉特征关联策略,融合跨无人机深度特征匹配与无人机内部特征跟踪,确保在视角变化时实现实时、连续的共视特征对应;
4) 提出一种从稀疏到稠密的深度恢复方案,通过对远距离三角化稀疏特征点的指数拟合,优化单目深度网络的稠密深度预测结果,实现精确的度量级建图。
实验评估了飞行协同立体视觉系统对两架无人机之间相对位姿的估计精度。两架无人机在东-北-天坐标系中自主飞行同步的圆形轨迹,基线长度设为3米。将双光谱视觉惯性-测距估计器的相对位姿估计结果与两种基准方法进行对比:(1)仅基于机间观测的视觉透视n点算法;(2)通过相减两架无人机的单机视觉惯性里程计位姿得到的视觉惯性里程计差分法。实验中使用NOKOV度量动作捕捉系统提供相对位姿真值作为评估基准。

NOKOV度量动作捕捉系统下飞行协同立体视觉系统相对位姿估计实验
实验表明,双光谱视觉惯性-测距估计器的相对位置估计总平均绝对误差为0.013米,显著优于视觉透视n点算法(0.018米)和视觉惯性里程计差分法(0.024米)。相对姿态估计中,偏航角的平均绝对误差为0.214°。
同时,研究人员还通过室外真实环境(强光、复杂背景干扰、严重的红外噪声和远距离观测)测试评估了动态基线估计的鲁棒性。结果显示,基于双光谱标记的视觉检测与跟踪算法在所有环境中的跟踪成功率均超过96%,显著优于对比方法(YOLOv4-tiny+MOSSE)的17%~70%。

强光、杂乱背景、光噪声及远距离观测挑战下的实验
实验对比了GP-SS算法与三种基准方法(原始SuperPoint-SuperGlue、ORB、SURF)的实时性能。结果显示,GP-SS算法实现了近30Hz的特征关联频率,性能显著优于SS算法(13Hz)。
实验评估了不同深度段(0~10m、10~30m、30~50m、50~70m)下特征点重建的数量和精度。结果显示,系统在30m以外的远距离仍能实现有效的特征点三角化,而单无人机方法无法做到。
在多个真实环境与仿真环境中开展稠密建图实验,对比指数拟合、二次拟合、线性拟合三种模型以及SimpleRecon、MVSAnywhere两种方法。结果显示,系统在最远70米的距离上实现稠密建图,相对误差2.3%~9.7%;相比传统立体相机,最大感知范围提升350%,覆盖面积增加450%。

室外环境与逼真仿真环境下的远距离稠密重建实验
董伟 上海交通大学机械与动力工程学院 长聘副教授。主要研究方向:多机器人协同智能与主动感知。
左星星 穆罕默德·本·扎耶德人工智能大学(MBZUAI)机器人系 长聘助理教授。主要研究方向:机器人学、空间智能、状态估计与具身智能等。
在即将到来的ICRA 2026大会上,左星星老师联合多位海内外学者共同组织MM-SpatialAl Workshop: Multi-Modal Spatial Al for Robust Navigation and Open-World Understanding. NOKOV度量动作捕捉很荣幸赞助本次Workshop,欢迎相关领域学者投稿参与,共同探讨面向鲁棒导航与开放世界理解的多模态空间智能!
Workshop主页:https://xingxingzuo.github.io/MM-SpatialAI/

