📰 正文

Moonshot AI (月之暗面)发布最新的 Mixture-of-Experts(专家混合)模型:Kimi K2,总参数量达 1 万亿,激活参数 320 亿。

它在 知识问答、数学、编程 等领域表现达到开源和部分专有模型的最优水平。

与传统大模型不同,不仅是回答问题的“大模型”,更是具备 Agentic Intelligence(具身行动式智能) 的系统,可以 调用工具、执行任务、完成复杂流程。

在编程、数学和科学领域,表现达到开源最优(SOTA)。

在知识问答上接近闭源强模型(如 GPT-4.1)。

最大亮点在于 Agentic Intelligence ——能自主调用工具完成复杂任务。

局限在于推理极限任务和工具调用的稳定性,未来如果补齐 思维链(Chain-of-Thought)和视觉能力,潜力巨大。

image

开源版本

Kimi-K2-Base:基础模型,适合研究人员和开发者进行微调、二次开发。

Kimi-K2-Instruct:经过指令微调,支持自然对话、任务执行和 Agent 应用。

技术突破

MuonClip 优化器

解决大规模训练中常见的注意力权重“爆炸”问题。

使得在 15.5 万亿 token 的训练中稳定无崩溃,比传统 AdamW 更高效。

数据与强化学习

大规模模拟工具使用场景,合成数百领域、数千工具的交互数据。

结合强化学习(RL),既能处理“可验证任务”(如数学解题、代码运行),也能在“不可验证任务”(如写作、报告)中自我评估输出质量。

👉 简单说:它不仅学了知识,还学会了 如何操作工具 和 如何自我纠错。

性能表现

在多项国际标准评测中,Kimi K2 达到或超过了同类开源模型,部分领域接近专有闭源模型(如 GPT-4.1、Claude 4)。

image

image

编程能力

SWE-bench Verified(软件工程基准):65.8%(单次),71.6%(多次采样)

LiveCodeBench v6:53.7%

多语言编程任务:47.3%

数学与科学

AIME 2024:69.6%

MATH-500:97.4%

GPQA-Diamond:75.1%

知识与推理

MMLU:89.5%(接近 GPT-4.1)

MMLU-Pro:81.1%

SuperGPQA:57.2%

工具使用与任务执行

Tau2(零售、航空、电信):56%–70%

AceBench:76.5%

👉 结论:Kimi K2 在 代码、数学、科学问答 方面优势明显,同时具备较强的 任务执行能力。

局限性

复杂推理仍有限:在顶尖数学/逻辑竞赛题上表现不稳定。

工具调用可靠性不足:在定义模糊或复杂场景下,可能过度生成或调用失败。

单次提示处理大项目:效果不如分步骤执行。

尚不支持视觉输入(图片、视频)。

使用方式

在线体验:kimi.com(网页版、移动端)。

API:兼容 OpenAI/Anthropic 接口,开发者可快速迁移现有应用。

本地部署:支持 vLLM、SGLang、KTransformers、TensorRT-LLM 等推理框架。

开源发布:提供 Base(可微调)和 Instruct(可直接使用)两种版本。

官方介绍:https://moonshotai.github.io/Kimi-K2/

模型下载:https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905


来源:月之暗面发布最新开源模型:Kimi K2 具备具身行动式智能 能自主调用工具完成复杂任务。