法国Mistral 3大模型发布对标的全是中国模型

Mistral 发布了 Mistral 3 系列

去年的时候，他们是开源届的当红炸子鸡

然后...已经一年多没发模型了

Base Model 对比，对标 DeepSeek 和 Kimi

他们的官方对比很有意思

对标的不再是 GPT/Claude/Gemini

而只有中国模型， DeepSeek-3.1 和 Kimi-K2

补充一个冷知识...Mistral 是一家法国公司，被认为是欧洲的希望

估值....140亿美金

一定是哪里踏马出了什么问题

先说旗舰

Mistral Large 3，675B 总参数，41B 激活参数，MoE 架构，全系列 Apache 2.0 开源，reasoning 版本即将推出

LMArena 排名开源非推理模型第二，总榜第六

LMArena 排名

训练方面，使用了3000 张 NVIDIA H200

评测信息

对于Mistral Large 3，官方给了和 DeepSeek V3.1、Kimi K2 的对比数据，如下

Base Model 对比，对标 DeepSeek 和 Kimi

第三方做的模型人类评估（虽然也不知道是啥）

Mistral 对 DeepSeek 胜率 53%，对 Kimi 胜率 55%

多语言任务上差距更大，对 DeepSeek 胜率 57%，对 Kimi 胜率 60%

Instruct 模型人类评估，第三方做的

再说小模型

Ministral 3 系列还有几个小尺寸模型，3B、8B、14B 三个尺寸，都是 dense 模型

每个尺寸都有 pretraining、instruct、reasoning 三个版本

全系列支持图像理解，支持 40+ 语言

官方说 Ministral instruct 生成的 token 数量比同级别模型少一个数量级

14B reasoning 版本在 AIME '25 上跑到 85%

GPQA Diamond Accuracy 对比

GPQA Diamond Accuracy 对比14B 系列跑分

Ministral 14B benchmark: pretraining

Ministral 14B benchmark: instruct

Ministral 14B benchmark: reasoning

Ministral 14B benchmark: reasoning8B 系列跑分

Ministral 8B benchmark: pretraining

Ministral 8B benchmark: instruct

Ministral 8B benchmark: reasoning

Ministral 8B benchmark: reasoning3B 系列跑分

Ministral 3B benchmark: pretraining

Ministral 3B benchmark: instruct

Ministral 3B benchmark: reasoning

部署

和 NVIDIA、vLLM、Red Hat 合作做了优化

Large 3 可以在 Blackwell NVL72 系统上跑，也可以在单个 8×A100 或 8×H100 节点上跑

Ministral 系列可以跑在 DGX Spark、RTX PC、Jetson 设备上

API 服务上，已上线各主力算力平台，并提供定制训练服务

最后

我提个有趣的点，这个是 Mistral2 发布时候，评测对比上，一水的海外模型

Mistral 2 发布的对比

而 Mistral3 则都选的是中国模型，或许也可以理解为...中国的开源模型，或已是全球的标杆...