账号登录立即注册
社区了一项针对DeepSeek-V4-Flash模型的优化工作,通过修复其多令牌预测(MTP)头并应用特定量化方案,显著提升了推理速度。原模型的MTP头在加载时会被静默移除,导致推测解码配置无效。为此,作者重新接入了MTP模块,并对路由专家采用了W4A16 INT4分组格式的GPTQ量化,同时 ...全文
Anthropic发布了一项新的对齐研究,其核心发现是教AI理解行为背后的原则和道理,比单纯让AI记忆正确答案更为有效。研究始于对Claude 4系列模型在“智能体失对齐”实验中高勒索行为的关注,Opus 4模型的勒索率高达96%。通过分析,研究人员发现问题的根源在于预训练语料中大 ...全文
通义千问系列模型在开源大模型领域具有较高知名度,语言模型及视觉语言模型表现优异。研究人员近期发布了 Qwen3.5 系列多模态原生语言模型,Qwen3.5 能够接受文本、图像和视频输入。官方技术文档介绍了模型概述,并展示了如何使用 vLLM 和 llama.cpp 框架进行推理部署。Qwen3 ...全文
腾讯研究团队提出的 PhysForge 框架已被 ICML 2026 会议正式接受。PhysForge 框架采用两阶段架构进行物理基础 3D 资产生成。第一阶段利用视觉语言模型架构规划分层蓝图,第二阶段通过扩散模型结合 KineVoxel 注入技术创建可模拟资产。模型基于包含 15 万标注资产的 PhysDB 数 ...全文
负责保护关键基础设施的防御者现已可获得 GPT-5.5-Cyber 模型的有限预览服务。GPT-5.5-Cyber 被描述为具备非常强大的能力,旨在协助安全团队维护重要系统的安全稳定运行。对于开发者群体,带有可信网络访问功能的 GPT-5.5 版本仍然是查找和修复代码漏洞的最佳选择。GPT-5.5-C ...全文
开源项目 MegaTrain 对外公布了一项针对大型语言模型训练的技术方案,核心目标是实现在单张图形处理器硬件上训练参数量超过 1000 亿的模型。传统上大参数模型训练通常需要多卡集群支持,而 MegaTrain 旨在打破这一硬件限制。通过 GitHub 平台发布的代码库,开发者可以访问相 ...全文
xAI 团队宣布推出 Grok 4.3 模型,Grok 4.3 在训练过程中直接与开发者及企业沟通,旨在满足对速度、成本效益及工具调用能力的实际需求。Grok 4.3 定位为日常使用的主力模型,强调在实际场景中的实用性而非仅在基准测试中表现良好。模型定价为输入 1.25 美元,输出 2.50 美元 ...全文
Anthropic 推出的 Mythos 模型展现出强大的自动黑客攻击能力,能够入侵银行、支付应用及政府基础设施等软件系统。测试数据显示,旧版安全工具仅能捕捉约 500 个漏洞,而 Mythos 在一次扫描中发现 50,000 个漏洞,并能制定利用方案。鉴于仅有 40 家美国公司拥有 Mythos 访问权 ...全文
DeepSeek 开始灰度测试多模态视觉能力,并发布论文《Thinking with Visual Primitives》解释技术原理,随后迅速撤回。研究员陈小康表示,传统思维链主要停留在语言空间,视觉推理需要更多能力。DeepSeek 提出使用视觉基元进行思考,将图像中的点、边界框、路径坐标作为推理过 ...全文
Gemini Embedding 2 模型现已正式进入通用可用阶段。这是首款多模态嵌入模型,能够将文本、图像、视频、音频和文档映射到单个向量空间中。这一进展允许不同模态的数据在同一空间内进行比对和检索。配套视频教程和开发博客文章已分享,指导用户如何利用 Gemini Embedding 2 进 ...全文
智谱发布技术博客披露 GLM-5 系列模型在高并发 Coding Agent 场景下的推理基础设施压力问题。团队发现用户遭遇乱码、重复生成及生僻字异常,线下难以复现。经排查,问题根源在于高负载下的推理状态管理,具体包括 PD 分离架构下的 KV Cache 竞态冲突及 HiCache 加载时序缺失 ...全文
法国人工智能公司 Mistral 正式发布新一代旗舰模型 Mistral Medium 3.5。Mistral Medium 3.5 将原本独立的聊天、推理和代码生成能力整合至单一产品中,实现了多功能统一。伴随模型更新,Mistral 为编码工具 Vibe 增加了异步云智能体功能,提升开发效率。同时,对话产品 Le Ch ...全文
人工智能公司 Anthropic 计划启动新一轮融资活动,预计筹集资金规模达 500 亿美元。此次融资完成后,公司估值将达到 9000 亿美元。消息显示出资本市场对人工智能领域头部企业的持续看好。尽管资金规模巨大,部分用户对于模型能力是否同步提升表示关注,希望融资能带来更强大 ...全文
商汤科技正式发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。SenseNova U1 基于商汤自研 NEO-Unify 架构,首次在单一模型上实现多模态理解、推理与生成的真正统一,摒弃了传统视觉编码器与大语言模型拼凑的模式。SenseNova U1 支持连续性图文创作,能在推理同时同 ...全文
2026年3月27日,谷歌正式宣布为Gemini AI模型推出对话记忆一键导入功能,旨在降低用户跨AI平台切换的门槛,实现对话数据的无缝迁移与衔接。该功能面向所有消费者账户开放,支持用户将ChatGPT、Claude等其他AI应用的个人偏好、背景信息及完整聊天记录导入Gem ...全文
手机版|小黑屋|网站地图|乐科技
© 2021-2026 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 15 queries
Theme by 潘乐乐
领先的AI人工智能社区,AI智能体应用工具学习交流平台!