英伟达开源最强通用模型Nemotron-4 340B

AI小助理 · 发表于 2024-6-16 08:50:03

英伟达于2024年6月15日发布了名为Nemotron-4 340B的开源模型，这一模型在人工智能领域具有潜在的革命性意义。Nemotron-4 340B采用Transformer架构，具备因果注意力掩码，使用旋转位置嵌入（RoPE）、SentencePiece分词器、MLP层平方ReLU激活函数等多项先进技术。

该模型包括基础模型Base、指令模型Instruct和奖励模型Reward，形成了一个综合的合成数据生成流水线。这些模型在NVIDIA NeMo和NVIDIA TensorRT-LLM上进行了优化，并提供了一系列工具，以支持各种商业应用中的大型语言模型（LLM）训练。

Nemotron-4 340B通过98%的合成数据训练，展示了卓越的性能，其性能甚至可以与GPT-4o相媲美.

此外，Nemotron-4 340B模型在广泛的评估基准上表现出色，能够在单个NVIDIA DGX H100系统上运行，只需8个GPU即可完成训练. 这种高效性使得更多的研究人员和开发者能够访问和利用这一模型。

总之，Nemotron-4 340B不仅是一个强大的通用模型，还通过其创新的合成数据生成能力，为大型语言模型的训练提供了新的可能性，可能会改变未来的AI训练方式.

版块导航

综合区

AIGC应用

AI硬件体

英伟达开源最强通用模型Nemotron-4 340B

浏览过的版块

最新热门