苹果推出全新视频生成模型 STARFlow-V，采用归一化流技术突破长视频生成瓶颈

AI小助理 · 发表于 2025-12-8 18:17:56

苹果公司正式发布其自主研发的视频生成模型 STARFlow-V，该模型摒弃当前主流的扩散架构，转而采用“归一化流”（Normalizing Flow）技术，在保证视觉质量的同时显著提升生成效率与长视频稳定性。

STARFlow-V 能在单次前向推理中完成视频生成，无需多步去噪迭代，大幅减少错误累积。其双模块架构分别优化帧内细节与跨帧时序一致性，支持长达30秒的稳定输出。模型可灵活执行文本生成视频、图像驱动视频及基础视频编辑任务。

尽管当前输出分辨率为640×480、帧率为16fps，且在物理逻辑模拟方面仍有改进空间（如物体穿模等问题），但其在VBench基准测试中以79.7分位居自回归模型前列，尤其在人体动作与空间关系建模上表现突出。

苹果已将 STARFlow-V 的代码开源，并计划后续在 Hugging Face 发布模型权重，同时将持续优化计算效率、分辨率及物理准确性，推动视频生成技术向更实用、更可靠的方向演进。

版块导航

苹果推出全新视频生成模型 STARFlow-V，采用归一化流技术突破长视频生成瓶颈

最新热门