2025年10月27日,北京 —— 美团LongCat团队今日正式发布并开源 LongCat-Video 视频生成模型。该模型基于Diffusion Transformer架构,统一支持文本生成视频、图像生成视频及原生视频续写三大核心任务,在开源领域达到SOTA(最先进)水平。
LongCat-Video通过创新的“条件帧数量”机制实现任务自适应,无需额外适配即可完成不同视频生成需求。依托视频续写任务的预训练,模型可稳定生成长达5分钟的连贯高清视频,有效解决色彩漂移、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性。
在效率方面,模型结合块稀疏注意力(BSA)、条件token缓存与“粗到精”二阶段生成策略,推理速度提升10.1倍,显著打破“时长与质量不可兼得”的瓶颈,适用于数字人、具身智能、自动驾驶等需长时序动态模拟的前沿场景。
美团表示,LongCat-Video是其探索“世界模型”——即让AI理解并模拟真实世界运行规律——的重要起点,未来将深度融入公司本地生活、智能硬件与空间智能等业务生态。
模型已在GitHub与Hugging Face开源,采用MIT License,支持商业与研究用途。