摘要:哈工深和天津大学研究团队提出水下SLAM系统 - 实现用于六自由度估计的鲁棒且精确的水下定位。
来自哈工大(深圳)和天津大学的研究团队在工程技术类一区期刊 IEEE/ASME Transactions on Mechatronics (TMECH) 发表题为《RUSSO: Robust Underwater SLAM with Sonar Optimization against Visual Degradation》的论文,论文同时被IROS 2025收录。
本文针对水下视觉退化问题,首次提出了一种融合双目相机、IMU 与成像声呐的水下SLAM系统 - RUSSO,实现用于六自由度(6-DoF)估计的鲁棒且精确的水下定位。室内实验中,NOKOV度量水下光学动作捕捉系统提供水下机器人高精度位姿真值,助力评估RUSSO系统的定位精度与鲁棒性。

(a) 本文方法示意图。当在 ∆t 帧发生视觉退化时,成像声呐的特征跟踪作为机器人位姿估计的约束,从而减少位姿漂移。(b) 水下模拟器、水池和海洋中视觉可用与视觉退化场景的样本。
S. Pan, Z. Hong, Z. Hu, X. Xu, W. Lu and L. Hu, "RUSSO: Robust Underwater SLAM With Sonar Optimization Against Visual Degradation," in IEEE/ASME Transactions on Mechatronics, vol. 30, no. 6, pp. 5456-5467, Dec. 2025, doi: 10.1109/TMECH.2025.3550730.
水下环境给SLAM系统带来了陆地和空中少有的独特挑战,例如无法使用GPS、由于光衰减导致的快速光照变化,以及开阔水域中缺乏结构和特征。为了应对这些挑战,多模态传感器融合策略在现有的水下SLAM方法中被广泛使用。
1) 据作者所知,本文是首个融合成像声呐与立体相机及IMU的水下SLAM研究工作;
2) 提出了一种新颖的IMU传播优化方法,在视觉退化期间利用声呐位姿估计提供良好先验,从而提升IMU传播精度并减少定位漂移;
3) 为应对挑战性环境下的视觉初始化失败问题,提出了一种鲁棒的SLAM初始化方法,直接利用成像声呐相邻两帧之间的位姿估计进行初始化;
4) 开展了从水下模拟器到真实实验室水池及开阔海域的大量实验,验证了所提出的RUSSO系统在视觉退化环境中的鲁棒性与准确性。
在视觉-惯导里程计(VIO)系统基础上融合成像声呐,并给出一种新颖的 IMU 传播优化方法:当视觉退化导致位姿估计恶化时,利用声呐位姿估计为 IMU 传播提供良好先验,从而提高可靠性。此外,当 SLAM 初始化阶段视觉特征不足时,本研究引入成像声呐完成初始化。

RUSSO 系统的整体框架,其中成像声呐融合被集成到 VIO 系统中。紫色框和连线表示对 VIO 系统新增的扩展部分

本文实验平台。(b) 水池中搭建的配备NOKOV度量动作捕捉系统的实验环境。(c) 水池中的ZED2相机图像。(d) 水池中的Oculus m750d成像声呐图像。
在本文实验中,RUSSO与当前最先进的水下 SLAM 算法 SVIn2(仅使用相机与 IMU)以及VIO算法 VINS-Fusion进行了对比。
NOKOV度量水下光学动作捕捉系统为以下室内实验提供水下机器人高精度位姿真值,助力对比算法性能。
1) 算法对比:在包含视觉退化的水下实验中,RUSSO 在所有序列中均表现出最高的定位精度与地图一致性,尤其在视觉退化时段仍保持稳定,明显优于 SVIn2 与 VINS-Fusion。
2) 初始化验证:在视觉特征缺失的场景下,RUSSO 通过声呐辅助初始化成功启动并保持较高精度,而 SVIn2 初始化失败、VINS-Fusion 则因初值不准产生显著漂移。
3) IMU 传播优化:RUSSO在视觉退化时引入声呐位姿作为先验,有效降低了 IMU 传播误差,提升了系统在退化条件下的状态估计稳定性;移除视觉信息后,系统仍能维持基础定位能力,但部分自由度误差增大。
本研究在仿真环境、实验水池及浅海区域开展了大量实验。实验结果表明,在所有实验场景中,RUSSO均优于另外两种先进的视觉-惯性SLAM算法。本文方法有效提升了在近似固定深度的水下任务(如水下勘测与测绘)中的偏航角估计精度。
NOKOV度量水下光学动作捕捉系统为本文研究提供水下机器人高精度位姿真值,量化评估RUSSO系统的定位精度与鲁棒性。
