法国人工智能初创企业Mistral AI于当地时间2日宣布,正式推出其新一代Mistral 3系列模型。该系列包括首款采用稀疏架构的混合专家模型Mistral Large,以及三款小型密集模型。
Mistral Large模型的总参数量高达675亿,其中活跃参数规模为410亿。同时推出的Minstral 3“三兄弟”参数规模分别为140亿、80亿和30亿。这些模型及其衍生版本均采用Apache 2.0许可证进行开源。
据Mistral AI介绍,Mistral Large 3模型是使用3000块英伟达H200 GPU从头开始训练的,是全球顶尖的开放权重模型之一。经过后训练,该模型在通用提示任务上的表现与市场上最佳的指令微调开放权重模型不相上下,同时在多语言对话、图像理解方面也展现了行业顶尖的性能。在LMArena排行榜的OSS非推理模型类别中,Mistral Large 3位列第二,在OSS总榜中排名第六。
对于参数较小的Minstral 3系列模型,Mistral AI表示,这些模型实现了所有OSS模型中最佳的性价比。它们的指令变体在性能上与同类模型相当甚至更优,同时生成的token数量通常降低了一个数量级。 |