Vidu 是由中国人工智能公司 生数科技(Shengshu AI) 于 2024 年推出的一款 生成式 AI 视频模型,也是中国首个公开发布的、具备较强文生视频(Text-to-Video)能力的大模型。Vidu 的发布标志着中国在多模态生成式 AI 领域,特别是在高质量视频生成方面,迈出了关键一步。

一、基本信息
发布公司:生数科技(Shengshu AI)
首次亮相时间:2024 年 4 月 27 日(在 2024 中关村论坛年会上正式发布)
模型名称:Vidu
核心技术定位:超大规模文生视频生成模型(Text-to-Video Generative Model)
对标产品:OpenAI 的 Sora、Runway 的 Gen-2/Gen-3、Pika、Stable Video Diffusion 等
二、核心能力与技术亮点
1. 文生视频(Text-to-Video)
用户仅需输入一段自然语言提示(Prompt),Vidu 即可生成一段 16 秒、1080p 分辨率 的高清视频。
支持复杂场景描述,如“一只穿着宇航服的熊猫在火星表面漫步,背景是红色沙丘和地球升起”。
2. 时空一致性(Spatiotemporal Coherence)
Vidu 能较好地保持视频中物体的形状、颜色、位置在时间维度上的一致性,避免早期视频生成模型常见的“闪烁”“形变”“物体漂移”等问题。
例如:生成“一个人在雨中奔跑”,人物姿态、雨滴方向、背景透视关系较为连贯。
3. 基于自研架构:U-ViT(Unified Vision Transformer)
Vidu 采用生数科技自研的 U-ViT 架构,将图像和视频统一建模,支持端到端的时空联合生成。
相较于传统扩散模型(Diffusion)仅在空间维度操作,U-ViT 在 时间和空间维度同时建模,提升动态表现力。
4. 单镜头长时长生成
可一次性生成 16 秒 的连贯视频(早期 Runway Gen-2 仅支持 4 秒,Gen-3 提升至 10+ 秒),接近 OpenAI Sora 的水平(Sora 支持最长 60 秒)。
所有内容为 单次生成,非拼接或插帧,保证语义连贯性。
5. 物理与光影理解
模型展现出对基础物理规律(如重力、碰撞)和光影变化(如阴影、反射)的初步理解。
例如:生成“玻璃杯被打翻,水洒在桌面上”,液体流动方向和反光效果较为真实。
三、应用场景
影视预演(Previs):快速生成镜头草稿,辅助导演构思。
广告创意:低成本制作概念广告视频。
游戏开发:生成角色动画、过场剧情参考。
教育与科普:将抽象概念(如分子运动、天体运行)可视化。
短视频内容创作:个人创作者通过文字快速产出视觉内容。
四、技术背景与团队
生数科技(Shengshu AI) 成立于 2023 年,核心团队来自清华大学、北京大学、Google、Meta 等机构,在计算机视觉、多模态学习、生成模型领域有深厚积累。
公司聚焦 视频生成大模型 赛道,Vidu 是其首个公开成果。
技术路线强调 自主创新,U-ViT 架构不依赖 Stable Diffusion 等开源图像模型,具备完整知识产权。