阿里通义开源音频生成模型ThinkSound 自动匹配视频声音
阿里通义实验室于2025年7月5日正式开源了其首个音频生成模型——ThinkSound,该模型通过引入思维链(Chain of Thought, CoT)技术,实现了从视频画面到音频的高保真、强同步生成,标志着AI音频生成技术迈入了“懂画面”的新阶段。ThinkSound不仅能够根据视频内容自动匹配音效,还能模拟婴儿哭声、火车驶近等复杂场景,甚至能实现乐器演奏与动作的同步,极大地提升了AI配音的自然度和专业性。
在技术实现上,ThinkSound采用了三阶段推理流程,模拟专业音效师的工作逻辑,包括基础音效推理链构建、面向交互的对象级推理链构建和基于指令的音频编辑推理链构建。这一过程不仅提高了音频生成的准确性,还增强了用户的交互体验。此外,阿里团队还构建了全球首个带思维链标注的音频数据集——AudioCoT,该数据集包含2531.8小时的音频和视觉素材,为模型提供了完整的逻辑链条标注,进一步增强了AI生成音效的真实感和同步性。
ThinkSound的开源版本分为三个版本,分别适用于不同场景:ThinkSound-1.3B(13亿参数)面向专业级音效生成,ThinkSound-724M(7.24亿参数)在生成质量与计算效率间取得平衡,而ThinkSound-533M(5.33亿参数)则适合轻量级入门用户。这些模型的开放不仅降低了AI音效生成的技术门槛,还为中小型创作者、独立开发者及学术研究人员提供了接近专业工作室的音频生产能力。
在应用场景方面,ThinkSound广泛覆盖影视后期制作、游戏音效设计、互动媒体及教育内容创作等多个领域。例如,影视创作者可以利用ThinkSound快速为无声视频生成环境音效、角色对话或背景音乐,显著提升后期制作效率。此外,ThinkSound还支持多语言音效生成,未来甚至可能实现实时互动音效生成,进一步提升创作自由度
。
ThinkSound的开源不仅为开发者和创作者提供了强大的工具,也为音频生成技术的发展开辟了新的道路。通过这一创新,AI音频生成技术正从“能发声”迈向“懂画面”的智能阶段,为未来的创作与科技结合提供了无限可能。