📰 正文

OpenAI发布了两个开源模型:gpt-oss-120b和gpt-oss-20b,这是自2019年GPT-2发布以来首次推出开源语言模型,标志着其在开源AI领域的重大进展。

这些模型专为处理复杂任务而设计,允许开发者根据需要进行调整与优化。提供高度的定制化功能,适用于各种用例,并且可以在本地电脑登任何环境中运行。

gpt-oss-120b 在核心推理基准测试中接近 OpenAI 的 o4-mini 模型,且只需要单个 80GB GPU 即可高效运行。

gpt-oss-20b 的表现接近 o3-mini,并且能够在内存仅为 16GB 的设备上运行,非常适合本地推理、设备端应用或快速迭代。

这两个模型在 工具使用、少样本函数调用、链式推理(CoT) 方面表现突出,尤其在 Tau-Bench 和 HealthBench 这样的工具使用基准测试中,甚至超越了一些专有模型如 o1 和 GPT-4o。

模型概览

gpt-oss-120b:

参数规模:1170亿参数,采用稀疏混合专家(MoE)架构,每token激活约51亿参数。

性能:接近OpenAI的专有模型o4-mini,在推理任务上表现优异,适合数据中心或高端桌面运行。

硬件需求:单块80GB GPU即可高效运行。

基准测试:在Codeforces(带工具)得分2622,Humanity’s Last Exam(HLE)得分19%,优于DeepSeek的R1等开源模型,但在o3和o4-mini之下。

特点:支持复杂查询,可通过云端调用更强大的模型,适用于本地推理和数据隐私敏感场景。

gpt-oss-20b:

参数规模:较小,适合消费级设备。

性能:接近o3-mini,可在16GB内存的边缘设备(如笔记本电脑)上运行。

基准测试:Codeforces得分2516,HLE得分17.3%,同样优于部分开源竞品。

特点:针对低成本、本地化推理优化,适合资源受限的场景。

image

模型功能特点

  1. 宽松的许可协议(Permissive License)

Apache 2.0 许可证:OpenAI 的这些开源模型在 Apache 2.0 许可证下发布,这意味着开发者可以自由使用、修改、分发代码和模型,而无需担心版权问题或专利风险。这一宽松的许可证使得开发者可以更轻松地进行创新,无论是用于学术研究、个人项目,还是商业化部署,都没有额外的限制。

开发者能够通过自由使用这些模型进行实验、定制和扩展,而不会被传统的“copyleft”条款或专利风险所束缚。

  1. 为代理任务设计(Designed for Agentic Tasks)

指令跟随和工具使用:这些模型被专门设计来执行需要指令跟随和工具使用的任务。换句话说,它们不仅能够按照给定的指令执行任务,还可以利用外部工具(如网络搜索或执行代码)来增强其功能。例如,这些模型能够在推理过程中调用 Python 代码执行,或根据实时网页信息进行搜索,从而解决更加复杂的任务。

这使得模型的应用场景不仅限于简单的文本生成或对话任务,还能够扩展到更高层次的智能任务中,具有更高的代理能力(agentic ability)。

  1. 深度定制化(Deeply Customizable)

推理努力的调整:开发者可以根据需求调整模型的推理强度(推理努力)。可以选择低、中、高三种不同的推理力度,以适应不同的任务需求。例如,简单的任务可能只需要低推理力度,而复杂的决策或推理任务可能需要较高的推理强度。

全参数微调(Full-Parameter Fine-Tuning):OpenAI 的开放模型提供了 全参数微调 的功能,允许开发者对模型进行更精细的定制。这意味着,开发者可以根据自己的具体需求对模型的各个参数进行调整,从而使模型更加贴合特定的应用场景或业务需求。

例如,开发者可以通过微调模型的参数,使其在某些领域(如医学、法律、金融等)具备更强的专业能力,或者让模型在特定类型的任务中表现得更好。

  1. 完整的推理链(Full Chain-of-Thought)

推理链的可视化:OpenAI 提供了 完整的推理链,这使得开发者能够查看模型的推理过程。传统的 AI 模型往往只有输入和输出,开发者无法直接查看模型的内部推理过程,而 OpenAI 的这些开放模型则允许开发者访问并审查整个推理过程,从而更好地理解模型是如何得出结论的。

这种透明性对于调试非常重要,因为它帮助开发者识别模型可能出现的错误或不一致之处,进而改进模型的性能和可信度。通过这种方式,开发者不仅能够优化模型的输出,还能够增加对模型决策过程的信任。

模型性能(Model Performance)

OpenAI 的模型已经过多轮性能测试,并且在实际应用中表现出色。这些评估不仅关注模型的准确性,还包括其在不同环境下的表现稳定性、响应速度等方面。

image

  1. 推理能力

gpt-oss-120b 在推理任务中的表现接近 OpenAI 的 o4-mini 模型,特别是在推理和解决复杂问题时,如竞赛数学(AIME 2024 & 2025)、健康问题(HealthBench)和编程问题(Codeforces)。

gpt-oss-20b 尽管规模较小,但它在多个推理任务中与 o3-mini 模型相匹配,甚至在某些领域超越了 o3-mini。例如,它在健康测试和竞赛数学问题上超越了 o3-mini。

  1. 基准测试:

编程任务(Codeforces)

gpt-oss-120b 在竞赛编程平台 Codeforces 上的表现显著高于 o3-mini,并且与 o4-mini 的表现相当,显示出其在处理复杂编程问题时的出色推理能力。

gpt-oss-20b 的表现略逊色于 gpt-oss-120b,但依然在许多编程任务上超过了 o3-mini,尤其是在解决数学问题时。

image

通用问题解决(MMLU & HLE)

gpt-oss-120b 在多个通用问题求解基准测试(如 MMLU 和 HLE)中表现出色,成功超越了 o3-mini 和 o4-mini。

gpt-oss-20b 同样在这些基准测试中表现优异,尽管模型较小,但在多个领域(特别是健康领域)超越了 o3-mini。

image

image

健康领域(HealthBench)

gpt-oss-120b 在 HealthBench 上的表现超越了包括 GPT-4o 在内的多个专有模型,证明了它在医学领域问答中的强大推理能力。

gpt-oss-20b 在处理健康领域问题时也表现突出,尤其在处理医学常识和竞赛数学问题时,显示出其相较于其他开源模型的优势。

image

image

竞赛数学(AIME)

gpt-oss-120b 在数学竞赛基准(如 AIME 2024 & 2025)上的表现尤为突出,超越了 o4-mini 和 o3-mini,显示其在高难度数学问题中的推理优势。

gpt-oss-20b 在较小规模的竞赛数学测试中,尽管其规模较小,但表现也非常优秀,尤其在应对复杂数学问题时,能够保持较高的准确率。

image

3.多语言能力评估(MMMLU)

测试语言包括中、日、韩、德、法、西、阿、印地语、葡语、斯瓦希里语、约鲁巴等。

image

📌 亮点:

覆盖14种语言,在中法西日韩等主流语言上表现稳健。

较小模型gpt-oss-20b也具备强多语种适应力。

4 工具使用能力

gpt-oss模型在工具使用方面也表现卓越,能够高效执行诸如Python代码执行、网页搜索等任务。特别是在Tau-Bench 代理型评估套件中,这两款模型展示了其强大的工具使用能力和少样本函数调用能力。

gpt-oss-120b 和 gpt-oss-20b 都在工具调用和推理链(CoT)方面表现突出,能够在推理过程中有效地利用外部工具来增强模型输出的准确性和实用性。

  1. 推理努力(Reasoning Effort)

gpt-oss 模型支持三种推理级别:低、中、高。这一特性使得开发者可以根据实际任务需要,选择合适的推理效率和延迟:

低推理努力:适用于对推理复杂度要求较低、且对延迟敏感的应用场景。

中推理努力:平衡了推理精度和延迟,适用于一般的任务。

高推理努力:适合处理复杂的推理任务,提供最佳的推理精度,但可能会增加延迟。

这些推理级别的设定使得 gpt-oss 模型在不同的应用场景下都能提供最佳的性能,满足开发者在性能与响应时间之间的需求平衡。

image

  1. 与OpenAI专有模型的对比

在多个标准基准测试中,gpt-oss-120b 和 gpt-oss-20b 的表现与 OpenAI 专有模型(如 o3-mini、o4-mini 和 GPT-4o)相当,甚至在某些领域超越它们:

在推理任务和工具使用方面,gpt-oss-120b 凭借其较大的规模和高效的推理能力,与 o4-mini 旗鼓相当,并且在健康、编程和数学任务中表现出色。

gpt-oss-20b 虽然是较小的模型,但在多个任务中依然能够与 o3-mini 和其他更大规模的模型竞争,特别是在健康领域和数学任务中,它甚至超过了 o3-mini。

技术架构

训练与架构:

预训练:gpt-oss 模型使用了 OpenAI 最先进的预训练和后训练技术,重点关注推理能力、效率和适应各种部署环境的实用性。

架构:这些模型使用 混合专家(MoE) 方法,gpt-oss-120b使用128个专家,gpt-oss-20b使用32个专家;每个Token最多激活4个专家。在每个token的处理过程中,gpt-oss-120b 激活了 5.1B 个参数,而 gpt-oss-20b 激活了 3.6B 个参数,模型总参数分别为 117B 和 21B。为了提高推理和内存效率,模型采用了分组多查询注意力(Grouped Multi-Query Attention)机制。

训练数据:这些模型主要在英文文本数据上进行训练,特别关注 STEM(科学、技术、工程和数学)、编程和一般知识领域。

后训练过程:

模型经过了 监督微调 和 强化学习(RL) 阶段,使其能够高效地执行 链式推理(CoT) 和工具使用。与 OpenAI 的专有推理模型类似,gpt-oss 模型也支持 低、中、高推理力度 的选择。

模型经过了多轮 标准学术基准测试,在编码、数学竞赛、健康和工具使用方面超越了其他 OpenAI 推理模型,如 o3-mini 和 o4-mini。

开源特性:模型权重在Apache 2.0许可证下免费提供,可通过Hugging Face下载,支持vLLM、Ollama、llama.cpp等推理框架。

非多模态:仅支持文本处理,无法处理图像、音频或视频,与OpenAI的多模态模型(如GPT-4o)不同。

image

使用场景与优势

灵活性与控制:模型可运行在本地或私有云,满足数据驻留和隐私需求,适合政府、企业及数据敏感地区。

定制化:支持使用开源工具进行微调,适配特定任务。

成本效益:自托管可能比云服务更经济,尤其对资源受限的组织或新兴市场。

全球影响力:OpenAI通过“OpenAI for Countries”计划支持各国构建AI基础设施,推广基于美国价值观的AI技术。

image

局限性

非完全开源:仅提供模型权重,训练数据和部分基础设施仍为专有,与完全开源模型(如OLMo)不同。

幻觉问题:gpt-oss-120b和gpt-oss-20b在PersonQA基准测试中的幻觉率分别为49%和53%,远高于o1(16%)和o4-mini(36%)。

image

不支持API:不通过OpenAI API提供,也不可在ChatGPT中使用,需自行托管。

技术支持:OpenAI不提供自托管或第三方托管的实施和调试支持,需依赖社区(如Hugging Face)或自有资源。

模型下载:https://huggingface.co/openai/gpt-oss-120b

GitHub:https://github.com/openai/gpt-oss

在线体验:https://gpt-oss.com/

模型卡:https://openai.com/index/gpt-oss-model-card/


来源:OpenAI开源模型详细性能介绍:可在本地电脑等各种环境中运行 性能媲美o4-mini