基准测试
LLM(大型语言模型)基准测试是用于评估大型语言模型性能的标准化测试或数据集。这些基准测试帮助研究人员和开发者系统地了解模型的优势和劣势,并将其与其他模型进行比较。
Mistral 基准测试
Mistral 展示了顶级的推理能力,擅长高级推理、多语言任务、数学和代码生成。公司在 MMLU(海量多任务语言理解)、MT-bench 等热门公共基准上公布了基准测试结果。
您可以在以下博文中找到基准测试结果
- Pixtral Large:Pixtral Large 是一个基于 Mistral Large 2 构建的 124B 开源权重多模态模型。它是我们多模态系列中的第二个模型,展示了前沿的图像理解能力。
- Pixtral 12B:Pixtral 12B 是第一个展示最先进多模态理解能力的开源模型,同时不牺牲纯文本能力。
- Mistral Large:一款拥有顶级推理能力的尖端文本生成模型。它可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。
- Mistral Medium:一款尖端多模态模型。它可用于专业用例、编码、函数调用和推理任务。
- Mistral Small:一款强大高效的多模态模型,具有高级对话和翻译能力。
- Mistral Saba:一款强大高效的文本生成模型,对中东和南亚地区的语言进行了广泛训练,达到了与更大模型相当的最先进质量。它可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。
- Mistral Nemo:Mistral Nemo 的推理、世界知识和编码性能在其尺寸类别中处于最先进水平。由于它依赖于标准架构,Mistral Nemo 易于使用,并且可以作为任何使用 Mistral 7B 系统的直接替代品。
- Codestral:与之前用于编码的模型相比,Codestral 在代码生成的性能/延迟领域树立了新标准。
- Codestral-Mamba:我们训练了这款模型,使其具备高级代码和推理能力,从而使其性能与 SOTA transformer 模型不相上下。
- Mathstral:Mathstral 基于 Mistral 7B 构建,专注于 STEM 科目。它在各种行业标准基准测试中,在其尺寸类别中取得了最先进的推理能力。
- Mixtral 8x22B:我们性能最好的开源模型。它支持英语、法语、意大利语、德语、西班牙语,并在代码相关任务上表现出色。原生支持函数调用。
- Mixtral 8x7B:在大多数基准测试中性能优于 Llama 2 70B,推理速度快 6 倍,并在大多数标准基准测试中与 GPT3.5 持平或优于 GPT3.5。它支持英语、法语、意大利语、德语和西班牙语,并在代码生成方面表现出色。
- Mistral 7B:在所有基准测试中性能优于 Llama 2 13B,并在许多基准测试中优于 Llama 1 34B。
Scale Seal 排行榜
Scale AI 公布了其在编码、指令遵循、数学和西班牙语方面的私有基准测试结果。Mistral Large 在代码和西班牙语方面表现出色,在这些领域优于 Llama 3 405B。
Artificial Analysis
Artificial Analysis 对人工智能模型在质量、价格、输出速度、延迟、上下文窗口等关键性能指标上进行比较和评估。我们的模型在几个方面表现突出,值得重点介绍。
- Artificial Analysis 质量指数:我们的模型在此基准测试中排名第 3,甚至超过了 405B 模型。这一成就突显了我们的模型在分析和生成高质量见解方面的卓越能力。
- 编码 (HumanEval):在 HumanEval 基准测试中,我们的模型再次获得第 3 名,表现优于 405B 模型。这突出了我们的模型在编码任务上的卓越熟练度。
- 定量推理 (MATH):我们的模型在 MATH 基准测试中排名第 4,领先于 405B 模型。这展示了我们模型强大的定量推理能力。
- 科学推理与知识 (GPQA):在 GPQA 基准测试中,我们的模型排名第 4,展示了其强大的科学推理和知识记忆能力。
定性反馈
我们从 Reddit 和 Twitter 等平台收集了许多宝贵的见解。以下是一些用户分享他们使用我们的模型体验的亮点和引用。
Pixtral:
Pixtral 在 OCR 方面绝对强劲。
在处理图表、流程图、绘画和屏幕截图方面表现非常出色。
在我测试过的许多例子中,它优于 GPT-4o-mini。
Mistral Large:
Mistral large 2 一直是我的首选模型。
这个模型太好了。就本地模型而言,这可能是我第一个真诚地觉得在编码方面达到了专有模型水平的模型。
Mistral Nemo:
我试用 Nemo 几天了,它的连贯性让我惊叹不已。它比 Llama 3 8B 微调模型稍微“创造性差一些,重复性多一些”……但它感觉“更连贯,并且有更好的指令遵循能力”。
感谢 Mistral 的法国天才们带来的 Nemo。12B 参数和 128k 上下文是一个非常有用的组合。相对于 7B,它的大小提升足够大,与之交流时感觉更“扎实”一些,并且它在 Llama-2-13B 周围转圈(性能远超),同时上下文长度是其 32 倍。谢谢 Mistral!