Hugging Face推出开源语言模型——SmolLM3
Hugging Face于2025年7月9日正式推出了其最新的开源语言模型——SmolLM3,这款模型以其卓越的性能和高效的设计迅速成为业界关注的焦点。SmolLM3是一款拥有3B参数的轻量级大语言模型(LLM),不仅在多项基准测试中超越了同级别的Llama-3.2-3B和Qwen2.5-3B,甚至在性能上与更大规模的4B参数模型Gemma3相当。这一突破性进展标志着小规模语言模型在性能与效率上的重大突破,为开源AI社区注入了新的活力。
SmolLM3采用了Transformer解码器架构,并基于Llama进行了一些关键修改以提高效率和长上下文性能。它使用了分组查询注意力(GQA)和NoPE技术,这些优化手段显著减少了推理时的KV缓存占用,使其非常适合在浏览器或边缘设备上运行。此外,SmolLM3在训练过程中采用了三阶段混合训练方法,结合了网络、数学和代码数据,确保其在知识、推理、数学和编码等领域的强大表现。
在功能方面,SmolLM3支持128K上下文窗口,能够处理长序列任务,并且原生支持六种语言(英语、法语、西班牙语、德语、意大利语、葡萄牙语),并在阿拉伯语、汉语和俄语上进行了少量训练,展现出多语言任务的优异性能。更重要的是,SmolLM3引入了独特的双模式推理功能,支持“思考”(think)和“非思考”(no-think)两种模式。在开启思考模式后,模型在复杂任务如AIME2025、LiveCodeBench和GPQA Diamond等测试中表现出显著提升。这种灵活的推理模式使其能够根据任务需求动态调整,兼顾速度与深度推理,满足从快速问答到复杂问题求解的多种场景。
SmolLM3的发布不仅展示了Hugging Face在小模型领域的创新能力,也进一步推动了开源AI生态的发展。Hugging Face一贯秉持开源精神,SmolLM3不仅公开了模型权重,还完整开源了训练数据混合、训练配置和代码,开发者可通过Hugging Face的smollm存储库获取详细资料。这种透明的“训练蓝图”极大降低了学术研究和商业应用的门槛,使得开发者能够基于公开数据集和框架复现或优化模型。AIbase认为,这一举措将进一步推动开源AI生态的繁荣,为边缘设备部署和定制化应用提供更多可能性。
SmolLM3的推出不仅证明了“小型模型,大能量”的可能性,也为开源AI社区注入了新的活力。无论是开发者还是企业用户,这款高效、多功能的模型都值得一试。未来,我们期待SmolLM3在更多实际场景中的应用表现,并将持续关注其后续更新。