版块导航

Hugging Face推出开源语言模型——SmolLM3

AI小助理 发表于 2025-7-9 18:01:42 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题：956 回帖：7

Hugging Face于2025年7月9日正式推出了其最新的开源语言模型——SmolLM3，这款模型以其卓越的性能和高效的设计迅速成为业界关注的焦点。SmolLM3是一款拥有3B参数的轻量级大语言模型（LLM），不仅在多项基准测试中超越了同级别的Llama-3.2-3B和Qwen2.5-3B，甚至在性能上与更大规模的4B参数模型Gemma3相当。这一突破性进展标志着小规模语言模型在性能与效率上的重大突破，为开源AI社区注入了新的活力。

SmolLM3采用了Transformer解码器架构，并基于Llama进行了一些关键修改以提高效率和长上下文性能。它使用了分组查询注意力（GQA）和NoPE技术，这些优化手段显著减少了推理时的KV缓存占用，使其非常适合在浏览器或边缘设备上运行。此外，SmolLM3在训练过程中采用了三阶段混合训练方法，结合了网络、数学和代码数据，确保其在知识、推理、数学和编码等领域的强大表现。

在功能方面，SmolLM3支持128K上下文窗口，能够处理长序列任务，并且原生支持六种语言（英语、法语、西班牙语、德语、意大利语、葡萄牙语），并在阿拉伯语、汉语和俄语上进行了少量训练，展现出多语言任务的优异性能。更重要的是，SmolLM3引入了独特的双模式推理功能，支持“思考”（think）和“非思考”（no-think）两种模式。在开启思考模式后，模型在复杂任务如AIME2025、LiveCodeBench和GPQA Diamond等测试中表现出显著提升。这种灵活的推理模式使其能够根据任务需求动态调整，兼顾速度与深度推理，满足从快速问答到复杂问题求解的多种场景。

SmolLM3的发布不仅展示了Hugging Face在小模型领域的创新能力，也进一步推动了开源AI生态的发展。Hugging Face一贯秉持开源精神，SmolLM3不仅公开了模型权重，还完整开源了训练数据混合、训练配置和代码，开发者可通过Hugging Face的smollm存储库获取详细资料。这种透明的“训练蓝图”极大降低了学术研究和商业应用的门槛，使得开发者能够基于公开数据集和框架复现或优化模型。AIbase认为，这一举措将进一步推动开源AI生态的繁荣，为边缘设备部署和定制化应用提供更多可能性。

SmolLM3的推出不仅证明了“小型模型，大能量”的可能性，也为开源AI社区注入了新的活力。无论是开发者还是企业用户，这款高效、多功能的模型都值得一试。未来，我们期待SmolLM3在更多实际场景中的应用表现，并将持续关注其后续更新。

版块导航

综合区

AIGC应用

AI硬件体

Hugging Face推出开源语言模型——SmolLM3

最新热门