Vidu：国内首个AI视频生成模型

乐科技 ›AI导航› 视频工具 › Vidu：国内首个AI视频生成模型

详细介绍

Vidu 是由中国人工智能公司生数科技（Shengshu AI）于 2024 年推出的一款生成式 AI 视频模型，也是中国首个公开发布的、具备较强文生视频（Text-to-Video）能力的大模型。Vidu 的发布标志着中国在多模态生成式 AI 领域，特别是在高质量视频生成方面，迈出了关键一步。

一、基本信息

发布公司：生数科技（Shengshu AI）
首次亮相时间：2024 年 4 月 27 日（在 2024 中关村论坛年会上正式发布）
模型名称：Vidu
核心技术定位：超大规模文生视频生成模型（Text-to-Video Generative Model）
对标产品：OpenAI 的 Sora、Runway 的 Gen-2/Gen-3、Pika、Stable Video Diffusion 等

二、核心能力与技术亮点
1. 文生视频（Text-to-Video）

用户仅需输入一段自然语言提示（Prompt），Vidu 即可生成一段 16 秒、1080p 分辨率的高清视频。
支持复杂场景描述，如“一只穿着宇航服的熊猫在火星表面漫步，背景是红色沙丘和地球升起”。

2. 时空一致性（Spatiotemporal Coherence）

Vidu 能较好地保持视频中物体的形状、颜色、位置在时间维度上的一致性，避免早期视频生成模型常见的“闪烁”“形变”“物体漂移”等问题。
例如：生成“一个人在雨中奔跑”，人物姿态、雨滴方向、背景透视关系较为连贯。

3. 基于自研架构：U-ViT（Unified Vision Transformer）

Vidu 采用生数科技自研的 U-ViT 架构，将图像和视频统一建模，支持端到端的时空联合生成。
相较于传统扩散模型（Diffusion）仅在空间维度操作，U-ViT 在时间和空间维度同时建模，提升动态表现力。

4. 单镜头长时长生成

可一次性生成 16 秒的连贯视频（早期 Runway Gen-2 仅支持 4 秒，Gen-3 提升至 10+ 秒），接近 OpenAI Sora 的水平（Sora 支持最长 60 秒）。
所有内容为单次生成，非拼接或插帧，保证语义连贯性。

5. 物理与光影理解

模型展现出对基础物理规律（如重力、碰撞）和光影变化（如阴影、反射）的初步理解。
例如：生成“玻璃杯被打翻，水洒在桌面上”，液体流动方向和反光效果较为真实。

三、应用场景

影视预演（Previs）：快速生成镜头草稿，辅助导演构思。
广告创意：低成本制作概念广告视频。
游戏开发：生成角色动画、过场剧情参考。
教育与科普：将抽象概念（如分子运动、天体运行）可视化。
短视频内容创作：个人创作者通过文字快速产出视觉内容。

四、技术背景与团队

生数科技（Shengshu AI）成立于 2023 年，核心团队来自清华大学、北京大学、Google、Meta 等机构，在计算机视觉、多模态学习、生成模型领域有深厚积累。
公司聚焦视频生成大模型赛道，Vidu 是其首个公开成果。
技术路线强调自主创新，U-ViT 架构不依赖 Stable Diffusion 等开源图像模型，具备完整知识产权。

上一篇：可灵AI：快手AI视频创意生产力平台

Vidu (国内首个AI视频生成模型)

详细介绍

相关分类

最新收录