账号登录立即注册
今日: 0|主题: 206|排名: 3
2026年1月12日 —— 以色列创意科技公司Lightricks近日宣布,其革命性AI视频生成模型LTX-2将全面开源,代码、训练框架及模型权重预计于2025年秋季在GitHub平台正式发布。此举标志着AI视频创作迈向开放、透明与可定制的新阶段。核心突破:[*] 音画同 ...全文
2026年1月7日 —— 视频AI先锋公司Lightricks于2025年10月下旬正式开源其最新一代视频生成模型 LTX-2,引发全球开发者与创意产业广泛关注。LTX-2是业内首个支持原生4K分辨率、最高48fps帧率及音画同步生成的开源视频模型。用户仅需消费级GPU(如游戏显卡 ...全文
近期,AI图像生成工具 ClipSketch AI 在抖音、小红书等平台迅速走红,凭借其独特的“抽象历史”风格视频引发全网模仿热潮。用户只需输入简单提示词,即可生成如“秦始皇骑恐龙巡视长城”“熊二骑熊大穿越太空”等荒诞又魔性的画面,相关话题播放量已突破数 ...全文
阿里巴巴通义实验室正式开源新一代端到端语音交互大模型 Fun-Audio-Chat-8B。该模型无需依赖传统ASR-LLM-TTS多模块拼接,可直接实现“语音输入—语音输出”的自然对话,显著降低延迟与错误率。Fun-Audio-Chat-8B 具备强大的情绪感知能力,能通过语速、语 ...全文
2025年12月18日,埃隆·马斯克旗下人工智能公司 xAI 正式推出 Grok Voice Agent API,面向全球开发者开放其已在 Tesla 车载系统与移动应用中验证的先进语音代理技术。该 API 基于 xAI 自研全栈语音技术,集成语音活动检测、音频分词器与端到端音频模型, ...全文
2025年12月16日,阿里巴巴正式推出新一代AI视频生成模型——通义万相2.6。该模型是国内首个支持“角色扮演”功能的视频生成系统,面向专业影视制作与图像创作场景全面升级。万相2.6具备音画同步、多镜头智能生成、声音驱动唇形与表情等核心能力,用户仅需 ...全文
2025年12月16日,一段《复仇者联盟5:毁灭日》的贴片预告意外在互联网泄露,迅速引发全球影迷热议。画面中,克里斯·埃文斯饰演的美国队长以全新形象现身——褪去战袍、怀抱婴儿,疑似步入父亲角色,令粉丝对剧情走向充满猜测。由于原始泄露版本画质模糊 ...全文
2025年9月24日,阿里巴巴在杭州云栖大会上正式发布全新语音大模型家族——通义百聆,涵盖语音识别模型 Fun-ASR 与语音合成模型 Fun-CosyVoice。其中,Fun-CosyVoice3-0.5B 支持 zero-shot 音色克隆,仅需3秒以上参考音频即可复刻音色并合成新语音,适用于 ...全文
2025年12月12日,国产AI Agent新锐产品Medeo正式推出其升级版视频智能体(Video Agent),以“全自动视频助理”为核心定位,再次刷新内容创作效率。新版Medeo支持用户仅输入一段文字或文章链接,即可自动生成包含配音、字幕、剪辑节奏、背景音乐及封面设 ...全文
2025年12月12日,OPPO ColorOS设计总监陈希宣布,ColorOS将于本月系统更新中上线全新AI功能——“AI妙听”。该功能可将任意文章一键转化为高质量的双人播客,不仅实现文本到语音的转换,更通过AI对内容进行语义重构,以自然对话形式呈现,并搭配背景音乐, ...全文
谷歌宣布 Gemini 2.5 系列文本转语音(TTS)模型——Gemini 2.5 Flash 与 Gemini 2.5 Pro 的 TTS 预览版完成重大升级并正式上线。此次更新显著提升语音合成的自然度、表现力与多语言支持能力,为 AI 应用开发者提供更强大、高效的语音交互工具。Gemini TT ...全文
苹果公司正式发布其自主研发的视频生成模型 STARFlow-V,该模型摒弃当前主流的扩散架构,转而采用“归一化流”(Normalizing Flow)技术,在保证视觉质量的同时显著提升生成效率与长视频稳定性。STARFlow-V 能在单次前向推理中完成视频生成,无需多步去噪 ...全文
阿里巴巴通义实验室正式推出全新语音合成模型 Qwen3-TTS,主打“零样本、多角色、跨语言”能力,显著优于主流商用引擎。该模型内置 49种高品质音色,覆盖客服、教育、直播、旁白等多元场景,并支持 10种语言及9种中国方言,包括粤语、四川话、东北话等。 ...全文
快手旗下人工智能创作平台可灵 AI 正式推出全新“主体库”功能,显著提升视频与图片生成中角色的一致性表现。依托 O1 多模态模型,“主体库”支持用户上传单张或多角度参考图,AI 即可自动补全3D视角并生成智能描述,实现对角色、场景或道具的长期记忆与 ...全文
微软正式推出其全新语音生成模型 VibeVoice 0.5B。该模型参数规模为5亿(0.5B),主打低延迟、高自然度与多语言支持,专为移动端和边缘设备优化,适用于实时语音助手、游戏配音、无障碍交互等场景。VibeVoice 0.5B 基于微软自研的神经语音合成架构,仅需 ...全文
小黑屋|网站地图|乐科技
© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 14 queries
Theme by 潘乐乐
领先的AI人工智能社区,AI智能体应用工具学习交流平台!