账号登录立即注册
今日: 0|主题: 208|排名: 19
保罗·麦卡特尼、汉斯·季默、凯特·布什等十余位国际顶尖音乐人共同推出特别项目专辑《The Eleven Album》,以极具象征意义的“静音曲目”表达对人工智能未经许可使用受版权保护音乐训练模型的强烈抗议。该专辑由ElevenLabs旗下非营利倡议平台发起,每首 ...全文
国产视频大模型领军者 Vidu(生数科技)今日宣布,其开放平台正式上线 “一键生成 MV” 功能。这一创新功能并非简单的模板套用,而是构建了一个深度协同的“虚拟制片厂”,旨在将复杂的 MV 制作流程自动化,让高质量音乐视频创作触手可及。核心亮点:多智 ...全文
2026年1月12日 —— 以色列创意科技公司Lightricks近日宣布,其革命性AI视频生成模型LTX-2将全面开源,代码、训练框架及模型权重预计于2025年秋季在GitHub平台正式发布。此举标志着AI视频创作迈向开放、透明与可定制的新阶段。核心突破:[*] 音画同 ...全文
2026年1月7日 —— 视频AI先锋公司Lightricks于2025年10月下旬正式开源其最新一代视频生成模型 LTX-2,引发全球开发者与创意产业广泛关注。LTX-2是业内首个支持原生4K分辨率、最高48fps帧率及音画同步生成的开源视频模型。用户仅需消费级GPU(如游戏显卡 ...全文
近期,AI图像生成工具 ClipSketch AI 在抖音、小红书等平台迅速走红,凭借其独特的“抽象历史”风格视频引发全网模仿热潮。用户只需输入简单提示词,即可生成如“秦始皇骑恐龙巡视长城”“熊二骑熊大穿越太空”等荒诞又魔性的画面,相关话题播放量已突破数 ...全文
阿里巴巴通义实验室正式开源新一代端到端语音交互大模型 Fun-Audio-Chat-8B。该模型无需依赖传统ASR-LLM-TTS多模块拼接,可直接实现“语音输入—语音输出”的自然对话,显著降低延迟与错误率。Fun-Audio-Chat-8B 具备强大的情绪感知能力,能通过语速、语 ...全文
2025年12月18日,埃隆·马斯克旗下人工智能公司 xAI 正式推出 Grok Voice Agent API,面向全球开发者开放其已在 Tesla 车载系统与移动应用中验证的先进语音代理技术。该 API 基于 xAI 自研全栈语音技术,集成语音活动检测、音频分词器与端到端音频模型, ...全文
2025年12月16日,阿里巴巴正式推出新一代AI视频生成模型——通义万相2.6。该模型是国内首个支持“角色扮演”功能的视频生成系统,面向专业影视制作与图像创作场景全面升级。万相2.6具备音画同步、多镜头智能生成、声音驱动唇形与表情等核心能力,用户仅需 ...全文
2025年12月16日,一段《复仇者联盟5:毁灭日》的贴片预告意外在互联网泄露,迅速引发全球影迷热议。画面中,克里斯·埃文斯饰演的美国队长以全新形象现身——褪去战袍、怀抱婴儿,疑似步入父亲角色,令粉丝对剧情走向充满猜测。由于原始泄露版本画质模糊 ...全文
2025年9月24日,阿里巴巴在杭州云栖大会上正式发布全新语音大模型家族——通义百聆,涵盖语音识别模型 Fun-ASR 与语音合成模型 Fun-CosyVoice。其中,Fun-CosyVoice3-0.5B 支持 zero-shot 音色克隆,仅需3秒以上参考音频即可复刻音色并合成新语音,适用于 ...全文
2025年12月12日,国产AI Agent新锐产品Medeo正式推出其升级版视频智能体(Video Agent),以“全自动视频助理”为核心定位,再次刷新内容创作效率。新版Medeo支持用户仅输入一段文字或文章链接,即可自动生成包含配音、字幕、剪辑节奏、背景音乐及封面设 ...全文
2025年12月12日,OPPO ColorOS设计总监陈希宣布,ColorOS将于本月系统更新中上线全新AI功能——“AI妙听”。该功能可将任意文章一键转化为高质量的双人播客,不仅实现文本到语音的转换,更通过AI对内容进行语义重构,以自然对话形式呈现,并搭配背景音乐, ...全文
谷歌宣布 Gemini 2.5 系列文本转语音(TTS)模型——Gemini 2.5 Flash 与 Gemini 2.5 Pro 的 TTS 预览版完成重大升级并正式上线。此次更新显著提升语音合成的自然度、表现力与多语言支持能力,为 AI 应用开发者提供更强大、高效的语音交互工具。Gemini TT ...全文
苹果公司正式发布其自主研发的视频生成模型 STARFlow-V,该模型摒弃当前主流的扩散架构,转而采用“归一化流”(Normalizing Flow)技术,在保证视觉质量的同时显著提升生成效率与长视频稳定性。STARFlow-V 能在单次前向推理中完成视频生成,无需多步去噪 ...全文
阿里巴巴通义实验室正式推出全新语音合成模型 Qwen3-TTS,主打“零样本、多角色、跨语言”能力,显著优于主流商用引擎。该模型内置 49种高品质音色,覆盖客服、教育、直播、旁白等多元场景,并支持 10种语言及9种中国方言,包括粤语、四川话、东北话等。 ...全文
小黑屋|网站地图|乐科技
© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 14 queries
Theme by 潘乐乐
领先的AI人工智能社区,AI智能体应用工具学习交流平台!