📰 正文
智谱 AI(Zhipu AI) 发布新一代多模态与智能体化模型:GLM-4.7。
该版本并非单纯参数扩容,而是针对 智能体场景中的“思考一致性(Thinking Consistency)”与“编程自治性(Agentic Coding)” 进行结构性增强。
该版本在多项标准化基准测试中显著超越 GLM-4.6。
相较 GLM-4.6,该版本重点解决了三大瓶颈: 1.
代码生成与修复的逻辑一致性不足;
多轮任务中保持思考一致性(不乱、不忘)
工具使用与上下文保持的碎片化。
GLM-4.7 在 17 个多维基准测试(涵盖 8 个推理、5 个编程、3 个智能体任务)中,相较 GLM-4.6 实现显著增益,尤其在复杂编程与长链任务中表现突出。
整体结果显示,GLM-4.7 在推理、编程与智能体执行三大维度均较 GLM-4.6 有10%~20% 的系统性提升。
GLM-4.7 的“思考系统”是核心亮点
GLM-4.7 的最大革新是:
引入了新的“思考机制(Thinking System)”, 这是它区别于大多数模型的核心技术。
让模型“先思考,再行动”
在传统大语言模型(如 GPT、Claude、Gemini)中,生成过程是:
输入 → 直接输出文本
也就是说,模型没有明确的“思考阶段”——它一边预测单词,一边输出结果。 这导致:
输出逻辑容易漂移(逻辑链断裂);
多轮任务中容易遗忘之前的推理过程;
对复杂任务缺乏一致性和复盘能力。
GLM-4.7 打破了这种机制。 它在架构中显式加入了“思考层(Thinking Layer)”, 让模型在输出前进行“内部思考”,形成可持续的推理链。
💬 用人类类比: GPT-4 是“边说边想”的人, GLM-4.7 是“先想清楚再回答”的人。
三种思考模式
GLM-4.7 的创新点在于它同时具备三种思考层,这在当前所有主流大模型中是首次系统实现。
💡 举例说明:
假如你和 GLM 聊一个编程项目:
第一次:它思考怎么设计架构;
第二次:它继续沿用上次的思路完善功能;
不会像旧版那样忘记前面的逻辑。
- Interleaved Thinking:让模型“分步思考”
每个响应或工具调用前,模型会自动生成一段“隐性推理过程”(即思考块)。
在这一阶段,模型不产出可见内容,而进行目标分解、验证与计划生成。
效果:显著改善指令遵循率(instruction following)与结构化输出一致性。
也就是在生成答案前,GLM-4.7 会自动进行一个内部推理阶段:
分析任务目标;
制定推理路径;
预测潜在障碍;
再生成可见输出。
这让模型在代码生成、逻辑推理等复杂场景中输出更稳定、条理更清晰。
📈 在 SWE-bench(真实编程任务)中,这一机制带来 5%–10% 的准确率提升。
- Preserved Thinking:让模型“记住自己的思考”
传统模型的多轮对话存在“遗忘问题”: 每次生成新答案时,它不会真正记得上一次的推理逻辑,只依赖上下文文本。
GLM-4.7 则在系统中引入**“推理状态缓存(Reasoning Memory)”**, 将思考链(Reasoning Trace)显式保留在内部上下文中,并在后续调用。
这意味着:
它不会重复犯同样的逻辑错误;
可以在任务中连续改进;
适合长时程任务(如代码项目、科研分析、论文撰写)。
📊 实验证明: Preserved Thinking 在多轮推理任务中减少约 20% 的逻辑漂移(drift rate), 在 Terminal Bench 长链任务中带来约 +16.5% 性能增益。
- Turn-level Thinking:让用户“控制思考”
GLM-4.7 允许用户或系统控制每一轮的思考深度,用户可在每一轮启用或禁用思考层
轻量任务(如问答、摘要) → 关闭思考层,加快响应;
复杂任务(如数学推理、编程、多步规划) → 启用思考层,提升准确度;
混合任务 → 动态切换。
这一点让 GLM-4.7 成为一个**“可控推理系统”**, 在成本、速度与智能之间实现灵活平衡。
为什么这是重大突破?
✅ 1. 从“输出导向”到“思维导向”
传统模型关注输出的质量;
GLM-4.7 关注思维过程的合理性与连贯性。 它不只是“会说”,而是“会想并能自证逻辑”。
✅ 2. 从“对话式 AI”向“可控智能体”过渡
思考系统让 GLM-4.7 能够在智能体框架中执行更复杂的多步骤任务。 它能:
理解任务目标;
拆解步骤;
调用工具;
保留上下文推理链;
自主完成执行闭环。
在 Claude Code、Roo Code、Cline 等智能体框架中的测试表明, GLM-4.7 的任务完成率明显优于前代(+10%~15%)。
✅ 3. 让推理变得“稳定、可复用、可解释”
由于推理链被显式保存,GLM-4.7 的输出具备:
稳定性:逻辑连贯、不易漂移;
可复用性:可延续推理结果,不必重复思考;
可解释性:可追踪模型的决策依据。
这为模型的安全性、可靠性和工程应用提供了新的基础。
GLM-4.7 有哪些重大升级?
🧩 1. 编程能力(Coding Ability)全面升级
GLM-4.7 的编码能力得到了大幅的提升
🧠 它能“先思考再动手”,比以前更少出错。 比如:在写函数前,它会先规划结构和逻辑,不会一上来就乱写。
这点非常接近人类开发者的思维方式。
🎨 2. 视觉与设计能力(Vibe Coding)更强
GLM-4.7 不只是会“写代码”,它还会“设计界面”。
GLM-4.7 对生成内容的**视觉一致性(Visual Consistency)**做了大幅优化:
自动生成结构化 HTML、CSS、JavaScript 代码;
幻灯片(Slides)生成时改进了排版与比例感;
生成网页具备现代化风格与可用性。
举例:
能生成 干净、现代感的网页;
能排版 美观的幻灯片和海报;
自动控制 布局、颜色和文字比例,视觉统一。
以前生成的网页像“开发者作品”, 现在生成的网页更像“设计师作品”。
🛠️ 3. 工具使用与网络浏览更聪明
GLM-4.7 可以主动使用工具,比如上网搜索或调用外部 API。
在 BrowseComp 中,从 45.1% 提升至 52.0%;
支持多工具上下文融合(context-managed browsing 模式);
在 τ²-Bench 中达到 87.4%,优于 GPT-5 (82.7)。
它能:
打开网页自己查资料;
自动提取信息;
在回答问题时引用最新内容;
自动执行命令(例如:下载文件、处理数据等)。
🔢 4. 复杂推理与数学能力更强
GLM-4.7 的逻辑推理能力有大幅度提升:
🧮 表现效果:
能正确解答更复杂的数学题;
在写代码前能推导更长的逻辑链;
在解释问题时更清晰、有条理。
和 GPT-5、Claude、Gemini 比起来如何?
GLM-4.7 的综合表现介于 GPT-5 与 Claude 4.5 之间, 在“代码生成 + 思考机制 + 视觉输出”方面更具优势。
在推理能力上,GLM-4.7 的平均表现略低于 GPT-5 系列,但超过 Claude Sonnet 4.5 与 Kimi K2:
GLM-4.7 在性能层面达到“GPT-5 级别的综合平衡型模型”。
推理层面: 数学逻辑接近 GPT-5,高于 Claude 4.5。
编程层面: SWE-bench、Terminal Bench 提升显著,具备行业级可用性。
智能体层面: τ²-Bench 成绩领先,展示出真实任务闭环能力。
稳定性: 由于“Preserved Thinking”,在长任务、复盘任务中表现极佳。
多语言与成本: 兼顾性能与性价比,是 2025 年底全球最具实用价值的开源模型之一。
使用方式(非常简单)
🌐 在线体验: 👉 Z.ai 平台 切换模型为 GLM-4.7
🧰 API 调用: 文档地址:GLM-4.7 API Guide
💾 本地部署:
可在 HuggingFace、ModelScope 下载模型权重
支持框架:vLLM、SGLang
兼容 OpenRouter 平台
💸 价格方案:
GLM Coding Plan 用户自动升级至 GLM-4.7。 相较 Claude Code 模型:
成本为其 1/7;
使用配额为其 3 倍;
编程任务性能达到 90% Claude 水平。
GitHub:https://github.com/zai-org/GLM-4.5
模型下载:https://huggingface.co/zai-org/GLM-4.7
技术报告:https://arxiv.org/abs/2508.06471