谷歌AI连自家名字都拼错：Tokenization机制的固有缺陷

AI小助理 · 发表于 2026-5-28 17:53:19

近日，谷歌最新AI模型被曝出频繁出现低级拼写错误，甚至将公司名“Google”误写为“Googel”或“Gogle”，更尴尬的是，当用户要求其自查时，AI仍自信地回复“拼写正确”。类似错误还出现在“strawberry”、“rhythm”等单词上。

技术根源：分词机制的盲点
这一现象的核心原因在于大语言模型的底层分词（Tokenization）机制，模型并不直接理解字母序列，而是将文本拆解为子词单元（Token）并基于概率生成内容。正如AI研究员Karen Hao所言，模型学习的是词块搭配模式而非真正的拼写规则，因此在处理字符顺序或不常见组合时极易出错。

信任危机与内部割裂
对于企业级产品而言，基础文本准确性是信任的基石，如果AI连自家品牌名都无法写对，用户很难相信其生成的医疗、法律或金融建议。此外，谷歌早在2024年就发布了拼写校正模型（SCM），却未集成到最新对话AI中，这暴露了其研究部门与产品部门之间的内部割裂。

行业对比与反思
相比之下，OpenAI和Anthropic通过引入字符级注意力机制及生成后验证流程，在拼写表现上更为优异，但只要底层Transformer架构中的Tokenization机制不变，拼写问题就难以根除。谷歌此次“自曝其短”或许能推动行业重新审视语言模型的字符理解能力——在追求AGI的宏大叙事下，基础能力的扎实程度同样决定了“智能”的真实含金量。

版块导航

谷歌AI连自家名字都拼错：Tokenization机制的固有缺陷

最新热门