智谱 AI 发布 GLM-Image 自回归图像生成模型 能精准理解文字语义并生成高保真具知识结构的图像

📰 正文

智谱 AI 发布 GLM-Image ：一个能“理解复杂语义 + 生成高质量图片”的 AI 图像生成模型。

是世界上第一个开源、工业级的自回归图像生成模型（Auto-regressive Image Generator）。

智谱研究团队在总结现有图像模型时发现两个明显问题： 1.

语义理解差扩散类模型虽然画面漂亮，但经常画错语义。比如输入“一个医生和一个病人”，模型可能生成两个医生。

文字和知识表现弱大多数模型渲染文字能力很差，尤其是中文。也无法很好地表达有知识逻辑的图像内容，比如技术示意图、教育海报或科普内容。

为了解决这两个问题，智谱团队选择了一条不同的路线：用语言模型（LLM）处理语义理解，用扩散模型处理图像生成。

二者结合，就是 GLM-Image。

主要功能包括：

文本生成图像（Text-to-Image）能根据中文、英文或混合输入生成语义准确、构图合理的图片，适用于广告创意、科普插图、教育内容等场景。

图像编辑与再生成（Image Editing / I2I）支持局部修改、背景替换、风格迁移等任务，在保持画面一致性的同时进行精准重绘。

文字渲染与排版（Text Rendering）借助 Glyph-byT5 模块，能够在图片中生成结构清晰的中英文文字，在 CVTG 和 LongText-Bench 测试中表现领先。

身份与多主体一致性生成生成过程中能保持人物或物体的身份与动作关系一致，适合角色设计、故事插画、虚拟人制作。

知识密集型图像生成（Knowledge-dense Generation）可根据技术性或教育类文字生成逻辑严谨、信息丰富的图像，支持图表、流程图、结构图等复杂内容。

GLM-Image 的架构：两种模型的结合体

GLM-Image 使用了一种「混合式结构」：

文字输入 → [自回归生成器] → 语义表示 → [扩散解码器] → 图像输出

这两个模块互相协作：

第一步：语言模型理解文字 → 生成语义布局；

第二步：扩散模型据此生成细节 → 输出最终图像。

💡 理解 → 表达 → 渲染三步走。

为什么叫“自回归（Auto-regressive）”？

“自回归”是一种模型生成方式，它不是“一次生成整张图片”，而是像语言模型一样，“一个 token 一个 token 地生成”。

想象你在画画： 1.

先想好主题；

再决定布局；

然后一点点画出细节。

GLM-Image 的自回归模块做的正是这件事：

每个 token 对应画面的一个语义片段；

模型逐步预测下一个“画面单元”；

直到构思完整。

这样带来的好处是：

能保持画面的逻辑一致；

对长句、多实体描述的理解更准确；

特别适合“知识密集型”场景（如科普、教育、广告）。

技术细节（逐层拆解）

（1）视觉编码：用 Semantic-VQ 表达图像语义

传统模型（如 DALL·E 或 SDXL）在训练图像时通常会把图片切割成小块（patch）并编码成向量。

但不同编码方式的信息保留程度差距很大👇：

智谱 AI 经过实验发现：

使用语义量化（Semantic-VQ）的编码方式能让模型更懂内容。

所以 GLM-Image 采用 X-Omni 的语义量化算法。每张图被压缩成 16 倍尺寸（16×16 的 patch），编码为一串“语义 token”，再输入自回归模块。

（2）多分辨率训练策略

GLM-Image 不是一次性训练高分辨率图片，而是分阶段逐步提升画质：

模型最终能生成最高 2048×2048 的图片。

这种渐进式策略使模型在每一阶段都能“稳步理解 + 稳定收敛”。

（3）扩散解码器（Diffusion Decoder）

当自回归模块生成了语义 token 后，扩散解码器接手任务，把这些语义信息变成真实的画面。

它采用了：

DiT（Diffusion Transformer）结构；

Flow Matching 调度算法（让扩散收敛更快、更稳）；

Glyph-byT5 小模型，用于改进中文字符渲染。

💬 为什么需要 Glyph-byT5？

因为中文文字在图像中包含细节笔画结构，传统扩散模型往往渲染错误。

Glyph-byT5 会把文字分解成字形特征，再让扩散模型“照着笔画画”。

（4）图像编辑机制

在进行图像编辑（如换背景、改衣服）时， GLM-Image 同时输入：

语义-VQ token；

参考图像的 VAE latent 表征。

采用 Block-Causal Attention（块级因果注意力），在计算量减少的同时，能精准保持原图细节。

相比之下，像 Qwen-Image-Edit 那种“全注意力”方案虽然更精确，但速度更慢。

（5）后训练：强化学习双优化

GLM-Image 在训练完成后，还进行了一轮“强化微调”：

奖励信号包括：

HPSv3（美学得分）

OCR 准确率（文字清晰度）

VLM 对齐（语义准确性）

LPIPS（视觉感知相似度）

手部打分模型（提高手部生成质量）

结果是：GLM-Image 不仅“理解得准”，而且“画得漂亮”。

性能表现

GLM-Image 在多个权威基准测试中表现优秀，尤其是在中文任务上。

文本渲染（CVTG-2k）

在中文、英文、混合排版场景中都表现稳定。

平均文字识别准确率 0.9116（中文英文双优）

是所有开源模型中文字渲染最准确的模型。（优于 Qwen-Image 和 SD3.5）

长文本渲染（LongText-Bench）

中文准确率 0.979，几乎追平闭源的 Seedream 4.5

英文准确率 0.952

综合图像生成（OneIG）

英文任务总体得分 0.528

中文任务 0.511 （与 Qwen-Image-2512 相当，优于 CogView4）

特别在 “文本理解” 和 “逻辑推理” 两项指标上表现突出。

知识密集型任务（DPG-Bench）

在涉及复杂结构、实体关系、属性理解的任务中：

GLM-Image 得分 84.78，略低于 Qwen-Image（88.3

但在关系理解与结构生成方面表现稳定。

这意味着它在“理性生成任务”中依旧可靠。

官方介绍：https://z.ai/blog/glm-image

GitHub：https://github.com/zai-org/GLM-Image

模型：https://huggingface.co/zai-org/GLM-Image

文档：https://docs.z.ai/guides/image/glm-image

来源：智谱 AI 发布 GLM-Image 自回归图像生成模型能精准理解文字语义并生成高保真具知识结构的图像

📰 正文#

📰 正文