StereoAdapter：北大首提自监督，适配水下双目深度估计

水下机器人在复杂环境中导航和建模，需解决深度感知难题。研究人员提出StereoAdapter框架，结合单目和双目视觉，利用自监督学习，在无水下真实深度标签下，高效适配视觉基础模型，实现高精度深度估计，显著提升水下机器人导航和目标检测能力。

水下环境中的深度感知对水下机器人自主导航、目标检测和三维重建等任务至关重要。

相比单目方法，双目视觉可以通过双目相机直接获得具有度量尺度的3D深度，避免了单目深度固有的尺度不确定性。

然而，将现有视觉算法直接应用于水下场景会遇到显著挑战。

水下成像因光学特性差异引入严重的域偏移：水对不同波长光的吸收导致颜色和亮度随距离衰减，水体中的悬浮颗粒会产生前向/后向散射，摄像机与水的界面产生复杂折射。

这些因素违背了陆地视觉中常用的光度一致性假设，使得在水下获得可靠的双目匹配变得更加困难。

在此背景下，目前的方法面临两大挑战：

此前一些研究尝试从不同角度结合单目和双目信息，例如TiO-Depth提出了「二合一」的单目-双目联合框架，Stereo Anywhere利用视觉基础模型提供的单目先验来增强双目匹配，实现了在低纹理或反光场景下的零样本泛化能力。

但在水下场景，剧烈的域差异依然使这些方法效果受限。

针对上述难题，北京大学等机构的研究人员提出了全新的StereoAdapter框架，以自监督学习为基础，在不需要水下真实深度标签的情况下，将强大的单目深度基础模型与双目几何有机结合。