Tora是一个基于轨迹导向的扩散变换器(DiT)技术的AI视频生成框架,能够将文本、视觉和轨迹条件融合,生成高质量且符合物理世界动态的视频内容。该模型由轨迹提取器、时空DiT和运动引导融合器组成,可以精确控制视频的动态表现,并支持长达204帧、720p分辨率的视频制作。
此外,Tora能够根据轨迹、图像、文本或其组合,简单几笔快速生成精确运动控制的视频,同时也支持首尾帧控制。实验表明,Tora在模拟物理世界中的运动方面表现出色,能够生成具有不同纵横比的720p分辨率视频。与其他可控视频生成模型相比,Tora生成的视频更加平滑,对运动轨迹的遵循也更准确。 总之,Tora作为阿里团队推出的最新视频生成模型,凭借其先进的技术和强大的功能,在AI视频生成领域展现了显著的优势和潜力。 |