智谱AI发布：GLM-4.7 引入三层思考模式 编码和前端审美大幅提升 性能直逼GPT-5和Claude 4.5

📰 正文

智谱 AI（Zhipu AI）发布新一代多模态与智能体化模型：GLM-4.7。

该版本并非单纯参数扩容，而是针对智能体场景中的“思考一致性（Thinking Consistency）”与“编程自治性（Agentic Coding）” 进行结构性增强。

该版本在多项标准化基准测试中显著超越 GLM-4.6。

相较 GLM-4.6，该版本重点解决了三大瓶颈： 1.

代码生成与修复的逻辑一致性不足；

多轮任务中保持思考一致性（不乱、不忘）

工具使用与上下文保持的碎片化。

GLM-4.7 在 17 个多维基准测试（涵盖 8 个推理、5 个编程、3 个智能体任务）中，相较 GLM-4.6 实现显著增益，尤其在复杂编程与长链任务中表现突出。

整体结果显示，GLM-4.7 在推理、编程与智能体执行三大维度均较 GLM-4.6 有10%~20% 的系统性提升。

GLM-4.7 的“思考系统”是核心亮点

GLM-4.7 的最大革新是：

引入了新的“思考机制（Thinking System）”，这是它区别于大多数模型的核心技术。

让模型“先思考，再行动”

在传统大语言模型（如 GPT、Claude、Gemini）中，生成过程是：

输入 → 直接输出文本

也就是说，模型没有明确的“思考阶段”——它一边预测单词，一边输出结果。这导致：

输出逻辑容易漂移（逻辑链断裂）；

多轮任务中容易遗忘之前的推理过程；

对复杂任务缺乏一致性和复盘能力。

GLM-4.7 打破了这种机制。它在架构中显式加入了“思考层（Thinking Layer）”，让模型在输出前进行“内部思考”，形成可持续的推理链。

💬 用人类类比： GPT-4 是“边说边想”的人， GLM-4.7 是“先想清楚再回答”的人。

三种思考模式

GLM-4.7 的创新点在于它同时具备三种思考层，这在当前所有主流大模型中是首次系统实现。

💡 举例说明：

假如你和 GLM 聊一个编程项目：

第一次：它思考怎么设计架构；

第二次：它继续沿用上次的思路完善功能；

不会像旧版那样忘记前面的逻辑。

Interleaved Thinking：让模型“分步思考”

每个响应或工具调用前，模型会自动生成一段“隐性推理过程”（即思考块）。

在这一阶段，模型不产出可见内容，而进行目标分解、验证与计划生成。

效果：显著改善指令遵循率（instruction following）与结构化输出一致性。

也就是在生成答案前，GLM-4.7 会自动进行一个内部推理阶段：

分析任务目标；

制定推理路径；

预测潜在障碍；

再生成可见输出。

这让模型在代码生成、逻辑推理等复杂场景中输出更稳定、条理更清晰。

📈 在 SWE-bench（真实编程任务）中，这一机制带来 5%–10% 的准确率提升。

Preserved Thinking：让模型“记住自己的思考”

传统模型的多轮对话存在“遗忘问题”：每次生成新答案时，它不会真正记得上一次的推理逻辑，只依赖上下文文本。

GLM-4.7 则在系统中引入**“推理状态缓存（Reasoning Memory）”**，将思考链（Reasoning Trace）显式保留在内部上下文中，并在后续调用。

这意味着：

它不会重复犯同样的逻辑错误；

可以在任务中连续改进；

适合长时程任务（如代码项目、科研分析、论文撰写）。

📊 实验证明： Preserved Thinking 在多轮推理任务中减少约 20% 的逻辑漂移（drift rate），在 Terminal Bench 长链任务中带来约 +16.5% 性能增益。

Turn-level Thinking：让用户“控制思考”

GLM-4.7 允许用户或系统控制每一轮的思考深度，用户可在每一轮启用或禁用思考层

轻量任务（如问答、摘要） → 关闭思考层，加快响应；

复杂任务（如数学推理、编程、多步规划） → 启用思考层，提升准确度；

混合任务 → 动态切换。

这一点让 GLM-4.7 成为一个**“可控推理系统”**，在成本、速度与智能之间实现灵活平衡。

为什么这是重大突破？

✅ 1. 从“输出导向”到“思维导向”

传统模型关注输出的质量；

GLM-4.7 关注思维过程的合理性与连贯性。它不只是“会说”，而是“会想并能自证逻辑”。

✅ 2. 从“对话式 AI”向“可控智能体”过渡

思考系统让 GLM-4.7 能够在智能体框架中执行更复杂的多步骤任务。它能：

理解任务目标；

拆解步骤；

调用工具；

保留上下文推理链；

自主完成执行闭环。

在 Claude Code、Roo Code、Cline 等智能体框架中的测试表明， GLM-4.7 的任务完成率明显优于前代（+10%～15%）。

✅ 3. 让推理变得“稳定、可复用、可解释”

由于推理链被显式保存，GLM-4.7 的输出具备：

稳定性：逻辑连贯、不易漂移；

可复用性：可延续推理结果，不必重复思考；

可解释性：可追踪模型的决策依据。

这为模型的安全性、可靠性和工程应用提供了新的基础。

GLM-4.7 有哪些重大升级？

🧩 1. 编程能力（Coding Ability）全面升级

GLM-4.7 的编码能力得到了大幅的提升

🧠 它能“先思考再动手”，比以前更少出错。比如：在写函数前，它会先规划结构和逻辑，不会一上来就乱写。

这点非常接近人类开发者的思维方式。

🎨 2. 视觉与设计能力（Vibe Coding）更强

GLM-4.7 不只是会“写代码”，它还会“设计界面”。

GLM-4.7 对生成内容的**视觉一致性（Visual Consistency）**做了大幅优化：

自动生成结构化 HTML、CSS、JavaScript 代码；

幻灯片（Slides）生成时改进了排版与比例感；

生成网页具备现代化风格与可用性。

举例：

能生成干净、现代感的网页；

能排版美观的幻灯片和海报；

自动控制布局、颜色和文字比例，视觉统一。

以前生成的网页像“开发者作品”，现在生成的网页更像“设计师作品”。

🛠️ 3. 工具使用与网络浏览更聪明

GLM-4.7 可以主动使用工具，比如上网搜索或调用外部 API。

在 BrowseComp 中，从 45.1% 提升至 52.0%；

支持多工具上下文融合（context-managed browsing 模式）；

在 τ²-Bench 中达到 87.4%，优于 GPT-5 (82.7)。

它能：

打开网页自己查资料；

自动提取信息；

在回答问题时引用最新内容；

自动执行命令（例如：下载文件、处理数据等）。

🔢 4. 复杂推理与数学能力更强

GLM-4.7 的逻辑推理能力有大幅度提升：

🧮 表现效果：

能正确解答更复杂的数学题；

在写代码前能推导更长的逻辑链；

在解释问题时更清晰、有条理。

和 GPT-5、Claude、Gemini 比起来如何？

GLM-4.7 的综合表现介于 GPT-5 与 Claude 4.5 之间，在“代码生成 + 思考机制 + 视觉输出”方面更具优势。

在推理能力上，GLM-4.7 的平均表现略低于 GPT-5 系列，但超过 Claude Sonnet 4.5 与 Kimi K2：

GLM-4.7 在性能层面达到“GPT-5 级别的综合平衡型模型”。

推理层面：数学逻辑接近 GPT-5，高于 Claude 4.5。

编程层面： SWE-bench、Terminal Bench 提升显著，具备行业级可用性。

智能体层面： τ²-Bench 成绩领先，展示出真实任务闭环能力。

稳定性：由于“Preserved Thinking”，在长任务、复盘任务中表现极佳。

多语言与成本：兼顾性能与性价比，是 2025 年底全球最具实用价值的开源模型之一。

使用方式（非常简单）

🌐 在线体验： 👉 Z.ai 平台切换模型为 GLM-4.7

🧰 API 调用：文档地址：GLM-4.7 API Guide

💾 本地部署：

可在 HuggingFace、ModelScope 下载模型权重

支持框架：vLLM、SGLang

兼容 OpenRouter 平台

💸 价格方案：

GLM Coding Plan 用户自动升级至 GLM-4.7。相较 Claude Code 模型：

成本为其 1/7；

使用配额为其 3 倍；

编程任务性能达到 90% Claude 水平。

GitHub：https://github.com/zai-org/GLM-4.5

模型下载：https://huggingface.co/zai-org/GLM-4.7

技术报告：https://arxiv.org/abs/2508.06471

来源：智谱AI发布：GLM-4.7 引入三层思考模式编码和前端审美大幅提升性能直逼GPT-5和Claude 4.5

📰 正文#

📰 正文