📰 正文

智谱 AI(Zhipu AI) 发布新一代多模态与智能体化模型:GLM-4.7。

该版本并非单纯参数扩容,而是针对 智能体场景中的“思考一致性(Thinking Consistency)”与“编程自治性(Agentic Coding)” 进行结构性增强。

该版本在多项标准化基准测试中显著超越 GLM-4.6。

相较 GLM-4.6,该版本重点解决了三大瓶颈: 1.

代码生成与修复的逻辑一致性不足;

多轮任务中保持思考一致性(不乱、不忘)

工具使用与上下文保持的碎片化。

GLM-4.7 在 17 个多维基准测试(涵盖 8 个推理、5 个编程、3 个智能体任务)中,相较 GLM-4.6 实现显著增益,尤其在复杂编程与长链任务中表现突出。

image

image

整体结果显示,GLM-4.7 在推理、编程与智能体执行三大维度均较 GLM-4.6 有10%~20% 的系统性提升。

GLM-4.7 的“思考系统”是核心亮点

GLM-4.7 的最大革新是:

引入了新的“思考机制(Thinking System)”, 这是它区别于大多数模型的核心技术。

让模型“先思考,再行动”

在传统大语言模型(如 GPT、Claude、Gemini)中,生成过程是:

输入 → 直接输出文本

也就是说,模型没有明确的“思考阶段”——它一边预测单词,一边输出结果。 这导致:

输出逻辑容易漂移(逻辑链断裂);

多轮任务中容易遗忘之前的推理过程;

对复杂任务缺乏一致性和复盘能力。

GLM-4.7 打破了这种机制。 它在架构中显式加入了“思考层(Thinking Layer)”, 让模型在输出前进行“内部思考”,形成可持续的推理链。

💬 用人类类比: GPT-4 是“边说边想”的人, GLM-4.7 是“先想清楚再回答”的人。

三种思考模式

GLM-4.7 的创新点在于它同时具备三种思考层,这在当前所有主流大模型中是首次系统实现。

image

💡 举例说明:

假如你和 GLM 聊一个编程项目:

第一次:它思考怎么设计架构;

第二次:它继续沿用上次的思路完善功能;

不会像旧版那样忘记前面的逻辑。

image

  1. Interleaved Thinking:让模型“分步思考”

每个响应或工具调用前,模型会自动生成一段“隐性推理过程”(即思考块)。

在这一阶段,模型不产出可见内容,而进行目标分解、验证与计划生成。

效果:显著改善指令遵循率(instruction following)与结构化输出一致性。

也就是在生成答案前,GLM-4.7 会自动进行一个内部推理阶段:

分析任务目标;

制定推理路径;

预测潜在障碍;

再生成可见输出。

这让模型在代码生成、逻辑推理等复杂场景中输出更稳定、条理更清晰。

📈 在 SWE-bench(真实编程任务)中,这一机制带来 5%–10% 的准确率提升。


  1. Preserved Thinking:让模型“记住自己的思考”

传统模型的多轮对话存在“遗忘问题”: 每次生成新答案时,它不会真正记得上一次的推理逻辑,只依赖上下文文本。

GLM-4.7 则在系统中引入**“推理状态缓存(Reasoning Memory)”**, 将思考链(Reasoning Trace)显式保留在内部上下文中,并在后续调用。

这意味着:

它不会重复犯同样的逻辑错误;

可以在任务中连续改进;

适合长时程任务(如代码项目、科研分析、论文撰写)。

📊 实验证明: Preserved Thinking 在多轮推理任务中减少约 20% 的逻辑漂移(drift rate), 在 Terminal Bench 长链任务中带来约 +16.5% 性能增益。


  1. Turn-level Thinking:让用户“控制思考”

GLM-4.7 允许用户或系统控制每一轮的思考深度,用户可在每一轮启用或禁用思考层

轻量任务(如问答、摘要) → 关闭思考层,加快响应;

复杂任务(如数学推理、编程、多步规划) → 启用思考层,提升准确度;

混合任务 → 动态切换。

这一点让 GLM-4.7 成为一个**“可控推理系统”**, 在成本、速度与智能之间实现灵活平衡。


为什么这是重大突破?

✅ 1. 从“输出导向”到“思维导向”

传统模型关注输出的质量;

GLM-4.7 关注思维过程的合理性与连贯性。 它不只是“会说”,而是“会想并能自证逻辑”。


✅ 2. 从“对话式 AI”向“可控智能体”过渡

思考系统让 GLM-4.7 能够在智能体框架中执行更复杂的多步骤任务。 它能:

理解任务目标;

拆解步骤;

调用工具;

保留上下文推理链;

自主完成执行闭环。

在 Claude Code、Roo Code、Cline 等智能体框架中的测试表明, GLM-4.7 的任务完成率明显优于前代(+10%~15%)。


✅ 3. 让推理变得“稳定、可复用、可解释”

由于推理链被显式保存,GLM-4.7 的输出具备:

稳定性:逻辑连贯、不易漂移;

可复用性:可延续推理结果,不必重复思考;

可解释性:可追踪模型的决策依据。

这为模型的安全性、可靠性和工程应用提供了新的基础。

GLM-4.7 有哪些重大升级?

🧩 1. 编程能力(Coding Ability)全面升级

GLM-4.7 的编码能力得到了大幅的提升

image

image

🧠 它能“先思考再动手”,比以前更少出错。 比如:在写函数前,它会先规划结构和逻辑,不会一上来就乱写。

这点非常接近人类开发者的思维方式。


🎨 2. 视觉与设计能力(Vibe Coding)更强

GLM-4.7 不只是会“写代码”,它还会“设计界面”。

GLM-4.7 对生成内容的**视觉一致性(Visual Consistency)**做了大幅优化:

自动生成结构化 HTML、CSS、JavaScript 代码;

幻灯片(Slides)生成时改进了排版与比例感;

生成网页具备现代化风格与可用性。

举例:

能生成 干净、现代感的网页;

能排版 美观的幻灯片和海报;

自动控制 布局、颜色和文字比例,视觉统一。

以前生成的网页像“开发者作品”, 现在生成的网页更像“设计师作品”。


🛠️ 3. 工具使用与网络浏览更聪明

GLM-4.7 可以主动使用工具,比如上网搜索或调用外部 API。

在 BrowseComp 中,从 45.1% 提升至 52.0%;

支持多工具上下文融合(context-managed browsing 模式);

在 τ²-Bench 中达到 87.4%,优于 GPT-5 (82.7)。

image

它能:

打开网页自己查资料;

自动提取信息;

在回答问题时引用最新内容;

自动执行命令(例如:下载文件、处理数据等)。


🔢 4. 复杂推理与数学能力更强

GLM-4.7 的逻辑推理能力有大幅度提升:

image

🧮 表现效果:

能正确解答更复杂的数学题;

在写代码前能推导更长的逻辑链;

在解释问题时更清晰、有条理。

和 GPT-5、Claude、Gemini 比起来如何?

GLM-4.7 的综合表现介于 GPT-5 与 Claude 4.5 之间, 在“代码生成 + 思考机制 + 视觉输出”方面更具优势。

在推理能力上,GLM-4.7 的平均表现略低于 GPT-5 系列,但超过 Claude Sonnet 4.5 与 Kimi K2:

image

GLM-4.7 在性能层面达到“GPT-5 级别的综合平衡型模型”。

推理层面: 数学逻辑接近 GPT-5,高于 Claude 4.5。

编程层面: SWE-bench、Terminal Bench 提升显著,具备行业级可用性。

智能体层面: τ²-Bench 成绩领先,展示出真实任务闭环能力。

稳定性: 由于“Preserved Thinking”,在长任务、复盘任务中表现极佳。

多语言与成本: 兼顾性能与性价比,是 2025 年底全球最具实用价值的开源模型之一。

image

使用方式(非常简单)

🌐 在线体验: 👉 Z.ai 平台 切换模型为 GLM-4.7

🧰 API 调用: 文档地址:GLM-4.7 API Guide

💾 本地部署:

可在 HuggingFace、ModelScope 下载模型权重

支持框架:vLLM、SGLang

兼容 OpenRouter 平台

💸 价格方案:

GLM Coding Plan 用户自动升级至 GLM-4.7。 相较 Claude Code 模型:

成本为其 1/7;

使用配额为其 3 倍;

编程任务性能达到 90% Claude 水平。

image

GitHub:https://github.com/zai-org/GLM-4.5

模型下载:https://huggingface.co/zai-org/GLM-4.7

技术报告:https://arxiv.org/abs/2508.06471


来源:智谱AI发布:GLM-4.7 引入三层思考模式 编码和前端审美大幅提升 性能直逼GPT-5和Claude 4.5