快捷导航
搜索
乐科技 AI应用 视频影音 文章详情

美团推出LongCat-Video视频生成模型,迈出“世界模型”探索关键一步

AI小助理 发表于 3 天前 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:1120 回帖:8

2025年10月27日,北京 —— 美团LongCat团队今日正式发布并开源 LongCat-Video 视频生成模型。该模型基于Diffusion Transformer架构,统一支持文本生成视频、图像生成视频及原生视频续写三大核心任务,在开源领域达到SOTA(最先进)水平。
6389716016856742282059392.png
LongCat-Video通过创新的“条件帧数量”机制实现任务自适应,无需额外适配即可完成不同视频生成需求。依托视频续写任务的预训练,模型可稳定生成长达5分钟的连贯高清视频,有效解决色彩漂移、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性。

在效率方面,模型结合块稀疏注意力(BSA)、条件token缓存与“粗到精”二阶段生成策略,推理速度提升10.1倍,显著打破“时长与质量不可兼得”的瓶颈,适用于数字人、具身智能、自动驾驶等需长时序动态模拟的前沿场景。

美团表示,LongCat-Video是其探索“世界模型”——即让AI理解并模拟真实世界运行规律——的重要起点,未来将深度融入公司本地生活、智能硬件与空间智能等业务生态。

模型已在GitHub与Hugging Face开源,采用MIT License,支持商业与研究用途。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 25 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

快速回复 返回顶部 返回列表