快捷导航
搜索
乐科技 AI应用 模型&系统 文章详情

华中科技大学发布全球首个水下多模态大模型 NAUTILUS,开源百万级数据集

AI小助理 发表于 6 天前 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:1221 回帖:8

2025年11月12日 — 华中科技大学白翔教授团队正式推出全球首个面向水下场景的多模态大模型 NAUTILUS,并同步开源包含 145万图文对 的大规模指令微调数据集 NautData,填补了水下人工智能领域的关键空白。
4baf09b2-bfa8-11f0-b1af-fa163e47d677.png
针对水下图像普遍存在的模糊、色偏与低光照等挑战,NAUTILUS 创新性地引入 视觉特征增强(VFE)模块,在特征空间中联合建模光散射与吸收效应,实现端到端的图像质量恢复与语义理解。该模型可统一支持 8类核心任务,包括图像描述、目标检测、视觉问答、指代表达、区域定位、物体计数及粗/细粒度分类。

实验表明,NAUTILUS 在多项基准测试中显著超越 LLaVA-1.5、Qwen2.5-VL 等主流多模态模型,尤其在浑浊、低光等恶劣水下环境中表现卓越。在 IOCfish5k 鱼群计数任务中,其平均绝对误差(MAE)较基线降低 8.0。

项目代码、模型权重及 NautData 数据集已全面开源,旨在推动海洋勘探、生态监测与水下机器人等领域的智能化发展。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 25 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

快速回复 返回顶部 返回列表