2025年5月12日,苹果公司宣布推出了一款名为FastVLM的新型视觉语言模型,该模型通过创新的编码技术实现了在速度和效率上的重大突破。FastVLM的核心在于其独特的FastViTHD视觉编码器,该编码器通过优化图像输入尺寸和减少视觉令牌数量,显著提升了处理高分辨率图像的能力,同时大幅降低了编码时间。
技术亮点与性能提升 FastVLM的开发团队通过引入FastViTHD编码器,成功实现了以下几方面的技术突破: 编码速度提升85倍:FastViTHD通过减少冗余计算和简化模型设计,使得编码速度达到了前所未有的水平,相比传统视觉语言模型快了85倍。 首次时间到首个令牌(TTFT)缩短3.2倍:在LLaVA-1.5配置下,FastVLM将TTFT缩短了3.2倍,同时保持了与先前工作的相似性能。 模型大小优化:FastVLM的视觉编码器比先前的LLaVA-OneVision小34倍,但依然能够处理高分辨率图像(最高1152×1152像素),并保持竞争力。 多模态任务表现优异:在多个基准测试中,包括SeedBench、MMBench和DocVND等,FastVLM均展现了卓越的性能,证明其在视觉语言任务中的强大能力。 应用场景与未来展望 FastVLM不仅提升了视觉语言模型的效率,还为苹果在端侧设备上的AI应用提供了技术支持。例如,结合苹果此前推出的Flash-LLM方案,FastVLM有望进一步优化端侧推理速度,从而实现更高效的视觉语言处理。 苹果研究团队表示,FastVLM的推出标志着公司在视觉语言模型领域的又一重大进展,并将推动未来多模态AI技术的发展。 |