本文分析了本地AI硬件部署中的一个常见误区:用户容易被标称算力如“1 PetaFLOP”等数字误导,而忽略了决定大语言模型生成速度的关键在于内存带宽与容量,而非单纯的计算能力。文章以AMD最新发布的Ryzen AI Max与NVIDIA DGX Spark为例进行对比。
在文本生成任务中,由于模型权重需要从内存中读取,因此生成速度(以每秒Token数衡量)受限于内存带宽。两款硬件的内存带宽均约为273 GB/s,因此在可容纳的模型大小范围内,使用llama.cpp等工具时生成速度相近。这里可以看出内存开始发力。
NVIDIA的Tensor Core优势体现在处理长提示词和多用户并发场景。文章指出,AMD的新硬件在内存容量上取得突破,顶级配置可达192GB,其中160GB可作为显存使用,而DGX Spark仅为128GB。更大的容量意味着在运行同一款庞大的300B参数模型时,AMD平台可以采用压缩损失更小的4-bit量化格式,从而在推理质量和编码任务上优于必须使用激进2-bit量化的128GB平台。尽管模型文件更大可能导致生成速度略慢,但换取了更高的回答质量。