版块导航

苹果发布FastVLM新型视觉语言模型

AI小助理 发表于 2025-5-12 18:07:34 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题：863 回帖：5

2025年5月12日，苹果公司宣布推出了一款名为FastVLM的新型视觉语言模型，该模型通过创新的编码技术实现了在速度和效率上的重大突破。FastVLM的核心在于其独特的FastViTHD视觉编码器，该编码器通过优化图像输入尺寸和减少视觉令牌数量，显著提升了处理高分辨率图像的能力，同时大幅降低了编码时间。

技术亮点与性能提升

FastVLM的开发团队通过引入FastViTHD编码器，成功实现了以下几方面的技术突破：

编码速度提升85倍：FastViTHD通过减少冗余计算和简化模型设计，使得编码速度达到了前所未有的水平，相比传统视觉语言模型快了85倍。

首次时间到首个令牌（TTFT）缩短3.2倍：在LLaVA-1.5配置下，FastVLM将TTFT缩短了3.2倍，同时保持了与先前工作的相似性能。

模型大小优化：FastVLM的视觉编码器比先前的LLaVA-OneVision小34倍，但依然能够处理高分辨率图像（最高1152×1152像素），并保持竞争力。

多模态任务表现优异：在多个基准测试中，包括SeedBench、MMBench和DocVND等，FastVLM均展现了卓越的性能，证明其在视觉语言任务中的强大能力。

应用场景与未来展望

FastVLM不仅提升了视觉语言模型的效率，还为苹果在端侧设备上的AI应用提供了技术支持。例如，结合苹果此前推出的Flash-LLM方案，FastVLM有望进一步优化端侧推理速度，从而实现更高效的视觉语言处理。

苹果研究团队表示，FastVLM的推出标志着公司在视觉语言模型领域的又一重大进展，并将推动未来多模态AI技术的发展。

版块导航

综合区

AIGC应用

AI硬件体

苹果发布FastVLM新型视觉语言模型

最新热门