2025年11月12日 — 华中科技大学白翔教授团队正式推出全球首个面向水下场景的多模态大模型 NAUTILUS,并同步开源包含 145万图文对 的大规模指令微调数据集 NautData,填补了水下人工智能领域的关键空白。
针对水下图像普遍存在的模糊、色偏与低光照等挑战,NAUTILUS 创新性地引入 视觉特征增强(VFE)模块,在特征空间中联合建模光散射与吸收效应,实现端到端的图像质量恢复与语义理解。该模型可统一支持 8类核心任务,包括图像描述、目标检测、视觉问答、指代表达、区域定位、物体计数及粗/细粒度分类。
实验表明,NAUTILUS 在多项基准测试中显著超越 LLaVA-1.5、Qwen2.5-VL 等主流多模态模型,尤其在浑浊、低光等恶劣水下环境中表现卓越。在 IOCfish5k 鱼群计数任务中,其平均绝对误差(MAE)较基线降低 8.0。
项目代码、模型权重及 NautData 数据集已全面开源,旨在推动海洋勘探、生态监测与水下机器人等领域的智能化发展。