快捷导航
搜索
乐科技 AI导航 视频工具 Vidu:国内首个AI视频生成模型
Vidu

Vidu (国内首个AI视频生成模型)

Vidu是中国首个公开发布的、具备较强文生视频能力的大模型,专注于将文字和图像转化为高质量的动态视频的同时,保持主体一致性。

详细介绍

Vidu 是由中国人工智能公司 生数科技(Shengshu AI) 于 2024 年推出的一款 生成式 AI 视频模型,也是中国首个公开发布的、具备较强文生视频(Text-to-Video)能力的大模型。Vidu 的发布标志着中国在多模态生成式 AI 领域,特别是在高质量视频生成方面,迈出了关键一步。

一、基本信息

    发布公司:生数科技(Shengshu AI)
    首次亮相时间:2024 年 4 月 27 日(在 2024 中关村论坛年会上正式发布)
    模型名称:Vidu
    核心技术定位:超大规模文生视频生成模型(Text-to-Video Generative Model)
    对标产品:OpenAI 的 Sora、Runway 的 Gen-2/Gen-3、Pika、Stable Video Diffusion 等

二、核心能力与技术亮点
1. 文生视频(Text-to-Video)

    用户仅需输入一段自然语言提示(Prompt),Vidu 即可生成一段 16 秒、1080p 分辨率 的高清视频。
    支持复杂场景描述,如“一只穿着宇航服的熊猫在火星表面漫步,背景是红色沙丘和地球升起”。

2. 时空一致性(Spatiotemporal Coherence)

    Vidu 能较好地保持视频中物体的形状、颜色、位置在时间维度上的一致性,避免早期视频生成模型常见的“闪烁”“形变”“物体漂移”等问题。
    例如:生成“一个人在雨中奔跑”,人物姿态、雨滴方向、背景透视关系较为连贯。

3. 基于自研架构:U-ViT(Unified Vision Transformer)

    Vidu 采用生数科技自研的 U-ViT 架构,将图像和视频统一建模,支持端到端的时空联合生成。
    相较于传统扩散模型(Diffusion)仅在空间维度操作,U-ViT 在 时间和空间维度同时建模,提升动态表现力。

4. 单镜头长时长生成

    可一次性生成 16 秒 的连贯视频(早期 Runway Gen-2 仅支持 4 秒,Gen-3 提升至 10+ 秒),接近 OpenAI Sora 的水平(Sora 支持最长 60 秒)。
    所有内容为 单次生成,非拼接或插帧,保证语义连贯性。

5. 物理与光影理解

    模型展现出对基础物理规律(如重力、碰撞)和光影变化(如阴影、反射)的初步理解。
    例如:生成“玻璃杯被打翻,水洒在桌面上”,液体流动方向和反光效果较为真实。

三、应用场景

    影视预演(Previs):快速生成镜头草稿,辅助导演构思。
    广告创意:低成本制作概念广告视频。
    游戏开发:生成角色动画、过场剧情参考。
    教育与科普:将抽象概念(如分子运动、天体运行)可视化。
    短视频内容创作:个人创作者通过文字快速产出视觉内容。

四、技术背景与团队

    生数科技(Shengshu AI) 成立于 2023 年,核心团队来自清华大学、北京大学、Google、Meta 等机构,在计算机视觉、多模态学习、生成模型领域有深厚积累。
    公司聚焦 视频生成大模型 赛道,Vidu 是其首个公开成果。
    技术路线强调 自主创新,U-ViT 架构不依赖 Stable Diffusion 等开源图像模型,具备完整知识产权。

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 16 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

返回顶部