Anthropic 发布自然语言自动编码器技术可翻译大模型生成令牌时的内部思维
|
Anthropic 发布最新研究成果,展示大型语言模型在生成下一个令牌时的内部思维过程。该技术名为自然语言自动编码器,能够配对大型语言模型,将特定令牌的内部想法翻译为可读文本。研究团队已释放针对 Gemma 3 27b 指令模型的自动口语化和激活重建器权重。神经元百科网站目前托管这些模型,用户询问模型问题后点击任意令牌即可查看生成该令牌时的思维内容。自动口语化模型负责将激活转换为文本,激活重建器用于验证文本能否转回激活。示例显示模型能识别虚构内容。 |
|
|
|
|
|
|
|