Mistral首款多模态大模型Pixtral 12B发布 进军AI图像领域
法国AI初创公司Mistral AI于2024年9月11日发布了其首款多模态大模型Pixtral 12B,标志着该公司正式进军图像处理领域。这款名为Pixtral 12B的模型拥有120亿参数,大小约为24GB,能够同时处理图像和文本。
Pixtral 12B建立在Mistral的现有文本模型Nemo 12B基础上,并新增了一个专门的视觉编码器,使其具备强大的语言和视觉处理能力。该模型原生支持任意数量和尺寸的图像,具有40层神经网络、14,336个隐藏维度和32个注意力头。
值得注意的是,Pixtral 12B是Mistral AI首个开源的多模态大模型,开发者可以通过GitHub和Hugging Face下载其源代码进行测试。这一举措不仅提高了模型的可访问性,还进一步推动了多模态AI技术的发展。
此外,Pixtral 12B已经在多个基准测试中表现出色,例如在ChartQA和MMLU基准测试中超越了竞争对手OpenAI的Claude-3 Haiku和Anthropic的Phi-3 Vision。这表明Pixtral 12B在多模态知识理解和推理方面具有显著优势。
总体而言,Pixtral 12B的发布不仅是Mistral AI技术创新的一次飞跃,也为未来智能应用的发展开辟了新的可能性。
|
|
|
|
|