近日,谷歌最新AI模型被曝出频繁出现低级拼写错误,甚至将公司名“Google”误写为“Googel”或“Gogle”,更尴尬的是,当用户要求其自查时,AI仍自信地回复“拼写正确”。类似错误还出现在“strawberry”、“rhythm”等单词上。
技术根源:分词机制的盲点
这一现象的核心原因在于大语言模型的底层分词(Tokenization)机制,模型并不直接理解字母序列,而是将文本拆解为子词单元(Token)并基于概率生成内容。正如AI研究员Karen Hao所言,模型学习的是词块搭配模式而非真正的拼写规则,因此在处理字符顺序或不常见组合时极易出错。
信任危机与内部割裂
对于企业级产品而言,基础文本准确性是信任的基石,如果AI连自家品牌名都无法写对,用户很难相信其生成的医疗、法律或金融建议。此外,谷歌早在2024年就发布了拼写校正模型(SCM),却未集成到最新对话AI中,这暴露了其研究部门与产品部门之间的内部割裂。
行业对比与反思
相比之下,OpenAI和Anthropic通过引入字符级注意力机制及生成后验证流程,在拼写表现上更为优异,但只要底层Transformer架构中的Tokenization机制不变,拼写问题就难以根除。谷歌此次“自曝其短”或许能推动行业重新审视语言模型的字符理解能力——在追求AGI的宏大叙事下,基础能力的扎实程度同样决定了“智能”的真实含金量。