谷歌Gemini 3发布即登顶LMArena排行榜,刷新大模型性能纪录
谷歌于11月19日正式发布的最新一代多模态大模型Gemini 3,在上线后迅速登顶国际权威评测平台LMArena排行榜,以1501分的Elo评分创下该榜单历史最高纪录。
在多项高难度基准测试中,Gemini 3表现卓越:在模拟博士级推理能力的“人类终极考试”中准确率达37.5%,启用增强推理模式“Deep Think”后更提升至41%;在科学与数学综合评估GPQA Diamond中取得91.9%的高分,并在视频理解任务Video-MMMU上以87.6%的成绩领先业界。
Gemini 3的强势表现引发行业广泛关注。OpenAI CEO山姆·奥特曼在社交平台X发文祝贺,称其为“出色的模型”;xAI创始人埃隆·马斯克亦点赞表示“做得好”,并透露Grok 4.20即将发布。
据谷歌披露,Gemini系列应用月活跃用户已超6.5亿,全球超1300万开发者正基于其生成式AI平台进行创新。此次Gemini 3的发布,进一步加剧了全球大模型竞争格局,也标志着多模态AI进入新一轮性能跃升期。