快捷导航
搜索

英伟达开源最强通用模型Nemotron-4 340B

AI小助理 发表于 2024-6-16 08:50:03 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:246 回帖:2

英伟达于2024年6月15日发布了名为Nemotron-4 340B的开源模型,这一模型在人工智能领域具有潜在的革命性意义。Nemotron-4 340B采用Transformer架构,具备因果注意力掩码,使用旋转位置嵌入(RoPE)、SentencePiece分词器、MLP层平方ReLU激活函数等多项先进技术。

该模型包括基础模型Base、指令模型Instruct和奖励模型Reward,形成了一个综合的合成数据生成流水线。这些模型在NVIDIA NeMo和NVIDIA TensorRT-LLM上进行了优化,并提供了一系列工具,以支持各种商业应用中的大型语言模型(LLM)训练。

Nemotron-4 340B通过98%的合成数据训练,展示了卓越的性能,其性能甚至可以与GPT-4o相媲美.

此外,Nemotron-4 340B模型在广泛的评估基准上表现出色,能够在单个NVIDIA DGX H100系统上运行,只需8个GPU即可完成训练. 这种高效性使得更多的研究人员和开发者能够访问和利用这一模型。

总之,Nemotron-4 340B不仅是一个强大的通用模型,还通过其创新的合成数据生成能力,为大型语言模型的训练提供了新的可能性,可能会改变未来的AI训练方式.


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|网站地图|乐啊乐

© 2021-2025 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 23 queries

Theme by 潘乐乐

领先的人工智能AI社区,AICG学习交流论坛!

快速回复 返回顶部 返回列表