月之暗面发布最新开源模型：Kimi K2 具备具身行动式智能 能自主调用工具完成复杂任务。

📰 正文

Moonshot AI （月之暗面）发布最新的 Mixture-of-Experts（专家混合）模型：Kimi K2，总参数量达 1 万亿，激活参数 320 亿。

它在知识问答、数学、编程等领域表现达到开源和部分专有模型的最优水平。

与传统大模型不同，不仅是回答问题的“大模型”，更是具备 Agentic Intelligence（具身行动式智能）的系统，可以调用工具、执行任务、完成复杂流程。

在编程、数学和科学领域，表现达到开源最优（SOTA）。

在知识问答上接近闭源强模型（如 GPT-4.1）。

最大亮点在于 Agentic Intelligence ——能自主调用工具完成复杂任务。

局限在于推理极限任务和工具调用的稳定性，未来如果补齐思维链（Chain-of-Thought）和视觉能力，潜力巨大。

开源版本

Kimi-K2-Base：基础模型，适合研究人员和开发者进行微调、二次开发。

Kimi-K2-Instruct：经过指令微调，支持自然对话、任务执行和 Agent 应用。

技术突破

MuonClip 优化器

解决大规模训练中常见的注意力权重“爆炸”问题。

使得在 15.5 万亿 token 的训练中稳定无崩溃，比传统 AdamW 更高效。

数据与强化学习

大规模模拟工具使用场景，合成数百领域、数千工具的交互数据。

结合强化学习（RL），既能处理“可验证任务”（如数学解题、代码运行），也能在“不可验证任务”（如写作、报告）中自我评估输出质量。

👉 简单说：它不仅学了知识，还学会了如何操作工具和如何自我纠错。

性能表现

在多项国际标准评测中，Kimi K2 达到或超过了同类开源模型，部分领域接近专有闭源模型（如 GPT-4.1、Claude 4）。

编程能力

SWE-bench Verified（软件工程基准）：65.8%（单次），71.6%（多次采样）

LiveCodeBench v6：53.7%

多语言编程任务：47.3%

数学与科学

AIME 2024：69.6%

MATH-500：97.4%

GPQA-Diamond：75.1%

知识与推理

MMLU：89.5%（接近 GPT-4.1）

MMLU-Pro：81.1%

SuperGPQA：57.2%

工具使用与任务执行

Tau2（零售、航空、电信）：56%–70%

AceBench：76.5%

👉 结论：Kimi K2 在代码、数学、科学问答方面优势明显，同时具备较强的任务执行能力。

局限性

复杂推理仍有限：在顶尖数学/逻辑竞赛题上表现不稳定。

工具调用可靠性不足：在定义模糊或复杂场景下，可能过度生成或调用失败。

单次提示处理大项目：效果不如分步骤执行。

尚不支持视觉输入（图片、视频）。

使用方式

在线体验：kimi.com（网页版、移动端）。

API：兼容 OpenAI/Anthropic 接口，开发者可快速迁移现有应用。

本地部署：支持 vLLM、SGLang、KTransformers、TensorRT-LLM 等推理框架。

开源发布：提供 Base（可微调）和 Instruct（可直接使用）两种版本。

官方介绍：https://moonshotai.github.io/Kimi-K2/

模型下载：https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905

📰 正文#

📰 正文