📰 正文

智谱 AI 发布 GLM-Image :一个能“理解复杂语义 + 生成高质量图片”的 AI 图像生成模型。

是世界上第一个开源、工业级的自回归图像生成模型(Auto-regressive Image Generator)。

智谱研究团队在总结现有图像模型时发现两个明显问题: 1.

语义理解差 扩散类模型虽然画面漂亮,但经常画错语义。 比如输入“一个医生和一个病人”,模型可能生成两个医生。

文字和知识表现弱 大多数模型渲染文字能力很差,尤其是中文。 也无法很好地表达有知识逻辑的图像内容,比如技术示意图、教育海报或科普内容。

为了解决这两个问题,智谱团队选择了一条不同的路线:用语言模型(LLM)处理语义理解,用扩散模型处理图像生成。

二者结合,就是 GLM-Image。

image

主要功能包括:

image 1.

文本生成图像(Text-to-Image) 能根据中文、英文或混合输入生成语义准确、构图合理的图片, 适用于广告创意、科普插图、教育内容等场景。

图像编辑与再生成(Image Editing / I2I) 支持局部修改、背景替换、风格迁移等任务, 在保持画面一致性的同时进行精准重绘。

文字渲染与排版(Text Rendering) 借助 Glyph-byT5 模块,能够在图片中生成结构清晰的中英文文字, 在 CVTG 和 LongText-Bench 测试中表现领先。

身份与多主体一致性生成 生成过程中能保持人物或物体的身份与动作关系一致, 适合角色设计、故事插画、虚拟人制作。

知识密集型图像生成(Knowledge-dense Generation) 可根据技术性或教育类文字生成逻辑严谨、信息丰富的图像, 支持图表、流程图、结构图等复杂内容。

image

image

GLM-Image 的架构:两种模型的结合体

GLM-Image 使用了一种「混合式结构」:

文字输入 → [自回归生成器] → 语义表示 → [扩散解码器] → 图像输出

image

这两个模块互相协作:

第一步:语言模型理解文字 → 生成语义布局;

第二步:扩散模型据此生成细节 → 输出最终图像。

💡 理解 → 表达 → 渲染 三步走。

为什么叫“自回归(Auto-regressive)”?

“自回归”是一种模型生成方式,它不是“一次生成整张图片”,而是像语言模型一样,“一个 token 一个 token 地生成”。

image

想象你在画画: 1.

先想好主题;

再决定布局;

然后一点点画出细节。

GLM-Image 的自回归模块做的正是这件事:

每个 token 对应画面的一个语义片段;

模型逐步预测下一个“画面单元”;

直到构思完整。

这样带来的好处是:

能保持画面的逻辑一致;

对长句、多实体描述的理解更准确;

特别适合“知识密集型”场景(如科普、教育、广告)。

技术细节(逐层拆解)

(1)视觉编码:用 Semantic-VQ 表达图像语义

传统模型(如 DALL·E 或 SDXL) 在训练图像时通常会把图片切割成小块(patch)并编码成向量。

但不同编码方式的信息保留程度差距很大👇:

image

智谱 AI 经过实验发现:

使用 语义量化(Semantic-VQ) 的编码方式能让模型更懂内容。

所以 GLM-Image 采用 X-Omni 的语义量化算法。 每张图被压缩成 16 倍尺寸(16×16 的 patch), 编码为一串“语义 token”, 再输入自回归模块。

(2)多分辨率训练策略

GLM-Image 不是一次性训练高分辨率图片, 而是分阶段逐步提升画质:

image

模型最终能生成 最高 2048×2048 的图片。

这种渐进式策略使模型在每一阶段都能“稳步理解 + 稳定收敛”。

(3)扩散解码器(Diffusion Decoder)

当自回归模块生成了语义 token 后, 扩散解码器接手任务,把这些语义信息变成真实的画面。

它采用了:

DiT(Diffusion Transformer)结构;

Flow Matching 调度算法(让扩散收敛更快、更稳);

Glyph-byT5 小模型,用于改进中文字符渲染。

💬 为什么需要 Glyph-byT5?

因为中文文字在图像中包含细节笔画结构,传统扩散模型往往渲染错误。

Glyph-byT5 会把文字分解成字形特征,再让扩散模型“照着笔画画”。


(4)图像编辑机制

在进行图像编辑(如换背景、改衣服)时, GLM-Image 同时输入:

语义-VQ token;

参考图像的 VAE latent 表征。

采用 Block-Causal Attention(块级因果注意力), 在计算量减少的同时,能精准保持原图细节。

image

相比之下,像 Qwen-Image-Edit 那种“全注意力”方案虽然更精确,但速度更慢。


(5)后训练:强化学习双优化

GLM-Image 在训练完成后,还进行了一轮“强化微调”:

image

奖励信号包括:

HPSv3(美学得分)

OCR 准确率(文字清晰度)

VLM 对齐(语义准确性)

LPIPS(视觉感知相似度)

手部打分模型(提高手部生成质量)

结果是:GLM-Image 不仅“理解得准”,而且“画得漂亮”。

性能表现

GLM-Image 在多个权威基准测试中表现优秀,尤其是在中文任务上。

  1. 文本渲染(CVTG-2k)

image

在中文、英文、混合排版场景中都表现稳定。

平均文字识别准确率 0.9116(中文英文双优)

是所有开源模型中文字渲染最准确的模型。(优于 Qwen-Image 和 SD3.5)

  1. 长文本渲染(LongText-Bench)

image

中文准确率 0.979,几乎追平闭源的 Seedream 4.5

英文准确率 0.952

  1. 综合图像生成(OneIG)

英文任务总体得分 0.528

中文任务 0.511 (与 Qwen-Image-2512 相当,优于 CogView4)

特别在 “文本理解” 和 “逻辑推理” 两项指标上表现突出。

  1. 知识密集型任务(DPG-Bench)

在涉及复杂结构、实体关系、属性理解的任务中:

GLM-Image 得分 84.78,略低于 Qwen-Image(88.3

但在关系理解与结构生成方面表现稳定。

这意味着它在“理性生成任务”中依旧可靠。

官方介绍:https://z.ai/blog/glm-image

GitHub:https://github.com/zai-org/GLM-Image

模型:https://huggingface.co/zai-org/GLM-Image

文档:https://docs.z.ai/guides/image/glm-image


来源:智谱 AI 发布 GLM-Image 自回归图像生成模型 能精准理解文字语义并生成高保真具知识结构的图像