快捷导航
搜索
乐科技 AIGC应用 AI大模型 文章详情

Hugging Face推出开源语言模型——SmolLM3

AI小助理 发表于 7 天前 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:886 回帖:6

Hugging Face于2025年7月9日正式推出了其最新的开源语言模型——SmolLM3,这款模型以其卓越的性能和高效的设计迅速成为业界关注的焦点。SmolLM3是一款拥有3B参数的轻量级大语言模型(LLM),不仅在多项基准测试中超越了同级别的Llama-3.2-3B和Qwen2.5-3B,甚至在性能上与更大规模的4B参数模型Gemma3相当。这一突破性进展标志着小规模语言模型在性能与效率上的重大突破,为开源AI社区注入了新的活力。

SmolLM3采用了Transformer解码器架构,并基于Llama进行了一些关键修改以提高效率和长上下文性能。它使用了分组查询注意力(GQA)和NoPE技术,这些优化手段显著减少了推理时的KV缓存占用,使其非常适合在浏览器或边缘设备上运行。此外,SmolLM3在训练过程中采用了三阶段混合训练方法,结合了网络、数学和代码数据,确保其在知识、推理、数学和编码等领域的强大表现。

在功能方面,SmolLM3支持128K上下文窗口,能够处理长序列任务,并且原生支持六种语言(英语、法语、西班牙语、德语、意大利语、葡萄牙语),并在阿拉伯语、汉语和俄语上进行了少量训练,展现出多语言任务的优异性能。更重要的是,SmolLM3引入了独特的双模式推理功能,支持“思考”(think)和“非思考”(no-think)两种模式。在开启思考模式后,模型在复杂任务如AIME2025、LiveCodeBench和GPQA Diamond等测试中表现出显著提升。这种灵活的推理模式使其能够根据任务需求动态调整,兼顾速度与深度推理,满足从快速问答到复杂问题求解的多种场景。

SmolLM3的发布不仅展示了Hugging Face在小模型领域的创新能力,也进一步推动了开源AI生态的发展。Hugging Face一贯秉持开源精神,SmolLM3不仅公开了模型权重,还完整开源了训练数据混合、训练配置和代码,开发者可通过Hugging Face的smollm存储库获取详细资料。这种透明的“训练蓝图”极大降低了学术研究和商业应用的门槛,使得开发者能够基于公开数据集和框架复现或优化模型。AIbase认为,这一举措将进一步推动开源AI生态的繁荣,为边缘设备部署和定制化应用提供更多可能性。

SmolLM3的推出不仅证明了“小型模型,大能量”的可能性,也为开源AI社区注入了新的活力。无论是开发者还是企业用户,这款高效、多功能的模型都值得一试。未来,我们期待SmolLM3在更多实际场景中的应用表现,并将持续关注其后续更新。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐科技

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 22 queries

Theme by 潘乐乐

领先的AI人工智能社区,AICG应用工具学习交流平台!

快速回复 返回顶部 返回列表