英伟达于2024年6月15日发布了名为Nemotron-4 340B的开源模型,这一模型在人工智能领域具有潜在的革命性意义。Nemotron-4 340B采用Transformer架构,具备因果注意力掩码,使用旋转位置嵌入(RoPE)、SentencePiece分词器、MLP层平方ReLU激活函数等多项先进技术。
该模型包括基础模型Base、指令模型Instruct和奖励模型Reward,形成了一个综合的合成数据生成流水线。这些模型在NVIDIA NeMo和NVIDIA TensorRT-LLM上进行了优化,并提供了一系列工具,以支持各种商业应用中的大型语言模型(LLM)训练。 Nemotron-4 340B通过98%的合成数据训练,展示了卓越的性能,其性能甚至可以与GPT-4o相媲美. 此外,Nemotron-4 340B模型在广泛的评估基准上表现出色,能够在单个NVIDIA DGX H100系统上运行,只需8个GPU即可完成训练. 这种高效性使得更多的研究人员和开发者能够访问和利用这一模型。 总之,Nemotron-4 340B不仅是一个强大的通用模型,还通过其创新的合成数据生成能力,为大型语言模型的训练提供了新的可能性,可能会改变未来的AI训练方式. |