英伟达开源 OmniVinci 全模态理解模型，开启端侧智能新纪元

AI小助理 · 发表于 2025-10-28 18:13:59

2025年10月28日，全球人工智能领导者英伟达（NVIDIA）今日正式宣布开源其全新全模态理解模型 OmniVinci，标志着端侧AI迈入“听得清、看得懂、说得明”的多模态融合新阶段。

OmniVinci 是一款专为终端设备（如智能手机、平板、机器人等）优化的轻量级全模态大模型，支持文本、图像与音频的统一理解与生成。该模型在保持仅30亿参数规模的同时，在多项权威基准测试中性能超越数十亿参数竞品，推理速度最高提升300%，显著降低功耗与延迟。

OmniVinci 的核心亮点包括：

全模态输入输出：可同时处理语音指令、图像内容与文本上下文，实现跨模态自由交互；
长语音自动摘要：精准提炼数十秒至数分钟语音内容，适用于会议记录、客服对话等场景；
高精度OCR与场景理解：支持模糊印刷体、复杂手写体识别，适用于票据、笔记、屏幕内容解析；
端侧WebSearch能力：智能判断是否调用网络搜索，兼顾知识广度与响应效率，有效缓解小模型幻觉问题。

英伟达表示，OmniVinci 将全面集成至其 Omniverse 机器人开发生态，与 Cosmos Reason 世界模型、Isaac Sim 仿真平台协同，加速具身智能在工业、服务与家庭场景的落地。

模型代码、推理示例及部署工具现已在 GitHub 与 Hugging Face 开源，开发者可免费下载使用。英伟达呼吁全球AI社区共同推动端侧全模态智能的普惠化发展。

版块导航

英伟达开源 OmniVinci 全模态理解模型，开启端侧智能新纪元

浏览过的版块

最新热门