美团推出LongCat-Video视频生成模型，迈出“世界模型”探索关键一步

AI小助理 发表于 2025-10-27 18:27:02 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题：1319 回帖：8

2025年10月27日，北京 —— 美团LongCat团队今日正式发布并开源 LongCat-Video 视频生成模型。该模型基于Diffusion Transformer架构，统一支持文本生成视频、图像生成视频及原生视频续写三大核心任务，在开源领域达到SOTA（最先进）水平。

LongCat-Video通过创新的“条件帧数量”机制实现任务自适应，无需额外适配即可完成不同视频生成需求。依托视频续写任务的预训练，模型可稳定生成长达5分钟的连贯高清视频，有效解决色彩漂移、动作断裂等行业痛点，保障跨帧时序一致性与物理运动合理性。

在效率方面，模型结合块稀疏注意力（BSA）、条件token缓存与“粗到精”二阶段生成策略，推理速度提升10.1倍，显著打破“时长与质量不可兼得”的瓶颈，适用于数字人、具身智能、自动驾驶等需长时序动态模拟的前沿场景。

美团表示，LongCat-Video是其探索“世界模型”——即让AI理解并模拟真实世界运行规律——的重要起点，未来将深度融入公司本地生活、智能硬件与空间智能等业务生态。

模型已在GitHub与Hugging Face开源，采用MIT License，支持商业与研究用途。

版块导航

综合区

AI应用

AI硬件

美团推出LongCat-Video视频生成模型，迈出“世界模型”探索关键一步

浏览过的版块

最新热门