📰 正文
Moonshot AI (月之暗面)发布最新的 Mixture-of-Experts(专家混合)模型:Kimi K2,总参数量达 1 万亿,激活参数 320 亿。
它在 知识问答、数学、编程 等领域表现达到开源和部分专有模型的最优水平。
与传统大模型不同,不仅是回答问题的“大模型”,更是具备 Agentic Intelligence(具身行动式智能) 的系统,可以 调用工具、执行任务、完成复杂流程。
在编程、数学和科学领域,表现达到开源最优(SOTA)。
在知识问答上接近闭源强模型(如 GPT-4.1)。
最大亮点在于 Agentic Intelligence ——能自主调用工具完成复杂任务。
局限在于推理极限任务和工具调用的稳定性,未来如果补齐 思维链(Chain-of-Thought)和视觉能力,潜力巨大。
开源版本
Kimi-K2-Base:基础模型,适合研究人员和开发者进行微调、二次开发。
Kimi-K2-Instruct:经过指令微调,支持自然对话、任务执行和 Agent 应用。
技术突破
MuonClip 优化器
解决大规模训练中常见的注意力权重“爆炸”问题。
使得在 15.5 万亿 token 的训练中稳定无崩溃,比传统 AdamW 更高效。
数据与强化学习
大规模模拟工具使用场景,合成数百领域、数千工具的交互数据。
结合强化学习(RL),既能处理“可验证任务”(如数学解题、代码运行),也能在“不可验证任务”(如写作、报告)中自我评估输出质量。
👉 简单说:它不仅学了知识,还学会了 如何操作工具 和 如何自我纠错。
性能表现
在多项国际标准评测中,Kimi K2 达到或超过了同类开源模型,部分领域接近专有闭源模型(如 GPT-4.1、Claude 4)。
编程能力
SWE-bench Verified(软件工程基准):65.8%(单次),71.6%(多次采样)
LiveCodeBench v6:53.7%
多语言编程任务:47.3%
数学与科学
AIME 2024:69.6%
MATH-500:97.4%
GPQA-Diamond:75.1%
知识与推理
MMLU:89.5%(接近 GPT-4.1)
MMLU-Pro:81.1%
SuperGPQA:57.2%
工具使用与任务执行
Tau2(零售、航空、电信):56%–70%
AceBench:76.5%
👉 结论:Kimi K2 在 代码、数学、科学问答 方面优势明显,同时具备较强的 任务执行能力。
局限性
复杂推理仍有限:在顶尖数学/逻辑竞赛题上表现不稳定。
工具调用可靠性不足:在定义模糊或复杂场景下,可能过度生成或调用失败。
单次提示处理大项目:效果不如分步骤执行。
尚不支持视觉输入(图片、视频)。
使用方式
在线体验:kimi.com(网页版、移动端)。
API:兼容 OpenAI/Anthropic 接口,开发者可快速迁移现有应用。
本地部署:支持 vLLM、SGLang、KTransformers、TensorRT-LLM 等推理框架。
开源发布:提供 Base(可微调)和 Instruct(可直接使用)两种版本。
官方介绍:https://moonshotai.github.io/Kimi-K2/
模型下载:https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905