苹果推出全新视频生成模型 STARFlow-V,采用归一化流技术突破长视频生成瓶颈
苹果公司正式发布其自主研发的视频生成模型 STARFlow-V,该模型摒弃当前主流的扩散架构,转而采用“归一化流”(Normalizing Flow)技术,在保证视觉质量的同时显著提升生成效率与长视频稳定性。
STARFlow-V 能在单次前向推理中完成视频生成,无需多步去噪迭代,大幅减少错误累积。其双模块架构分别优化帧内细节与跨帧时序一致性,支持长达30秒的稳定输出。模型可灵活执行文本生成视频、图像驱动视频及基础视频编辑任务。
尽管当前输出分辨率为640×480、帧率为16fps,且在物理逻辑模拟方面仍有改进空间(如物体穿模等问题),但其在VBench基准测试中以79.7分位居自回归模型前列,尤其在人体动作与空间关系建模上表现突出。
苹果已将 STARFlow-V 的代码开源,并计划后续在 Hugging Face 发布模型权重,同时将持续优化计算效率、分辨率及物理准确性,推动视频生成技术向更实用、更可靠的方向演进。