字节跳动正式推出全新视频生成框架 InfinityStar,显著提升高质量视频的生成效率。该框架可在仅 58 秒内生成一段 5 秒、720p 分辨率的高清视频,同时支持图像生成、文本到视频、视频续写等多种视觉生成任务。
InfinityStar 的核心技术突破在于其创新的 时空金字塔架构。与传统将视频视为统一 3D 数据块的方法不同,该框架显式分离空间尺度与时间维度,有效解耦画面外观与动态运动信息,从而在保持高视觉质量的同时提升生成稳定性。
为加速训练与推理,InfinityStar 还引入 知识继承策略,复用一个预训练的变分自编码器(VAE)作为特征提取基础。这一设计大幅降低计算开销,缩短模型收敛时间,并保障输出视频的细节表现力。
官方表示,InfinityStar 不仅为当前短视频生成提供高效解决方案,也为未来实现分钟级长视频、多镜头叙事等复杂任务奠定技术基础。项目代码已开源,地址为:
https://github.com/FoundationVision/InfinityStar