Mistral首款多模态大模型Pixtral 12B发布进军AI图像领域

AI小助理 · 发表于 2024-9-12 19:05:57

法国AI初创公司Mistral AI于2024年9月11日发布了其首款多模态大模型Pixtral 12B，标志着该公司正式进军图像处理领域。这款名为Pixtral 12B的模型拥有120亿参数，大小约为24GB，能够同时处理图像和文本。

Pixtral 12B建立在Mistral的现有文本模型Nemo 12B基础上，并新增了一个专门的视觉编码器，使其具备强大的语言和视觉处理能力。该模型原生支持任意数量和尺寸的图像，具有40层神经网络、14,336个隐藏维度和32个注意力头。

值得注意的是，Pixtral 12B是Mistral AI首个开源的多模态大模型，开发者可以通过GitHub和Hugging Face下载其源代码进行测试。这一举措不仅提高了模型的可访问性，还进一步推动了多模态AI技术的发展。

此外，Pixtral 12B已经在多个基准测试中表现出色，例如在ChartQA和MMLU基准测试中超越了竞争对手OpenAI的Claude-3 Haiku和Anthropic的Phi-3 Vision。这表明Pixtral 12B在多模态知识理解和推理方面具有显著优势。

总体而言，Pixtral 12B的发布不仅是Mistral AI技术创新的一次飞跃，也为未来智能应用的发展开辟了新的可能性。

Mistral

版块导航

Mistral首款多模态大模型Pixtral 12B发布进军AI图像领域

相关帖子

最新热门

版块导航

Mistral首款多模态大模型Pixtral 12B发布 进军AI图像领域

相关帖子

最新热门

Mistral首款多模态大模型Pixtral 12B发布进军AI图像领域