📰 正文
智谱 AI 发布 GLM-Image :一个能“理解复杂语义 + 生成高质量图片”的 AI 图像生成模型。
是世界上第一个开源、工业级的自回归图像生成模型(Auto-regressive Image Generator)。
智谱研究团队在总结现有图像模型时发现两个明显问题: 1.
语义理解差 扩散类模型虽然画面漂亮,但经常画错语义。 比如输入“一个医生和一个病人”,模型可能生成两个医生。
文字和知识表现弱 大多数模型渲染文字能力很差,尤其是中文。 也无法很好地表达有知识逻辑的图像内容,比如技术示意图、教育海报或科普内容。
为了解决这两个问题,智谱团队选择了一条不同的路线:用语言模型(LLM)处理语义理解,用扩散模型处理图像生成。
二者结合,就是 GLM-Image。
主要功能包括:
1.
文本生成图像(Text-to-Image) 能根据中文、英文或混合输入生成语义准确、构图合理的图片, 适用于广告创意、科普插图、教育内容等场景。
图像编辑与再生成(Image Editing / I2I) 支持局部修改、背景替换、风格迁移等任务, 在保持画面一致性的同时进行精准重绘。
文字渲染与排版(Text Rendering) 借助 Glyph-byT5 模块,能够在图片中生成结构清晰的中英文文字, 在 CVTG 和 LongText-Bench 测试中表现领先。
身份与多主体一致性生成 生成过程中能保持人物或物体的身份与动作关系一致, 适合角色设计、故事插画、虚拟人制作。
知识密集型图像生成(Knowledge-dense Generation) 可根据技术性或教育类文字生成逻辑严谨、信息丰富的图像, 支持图表、流程图、结构图等复杂内容。
GLM-Image 的架构:两种模型的结合体
GLM-Image 使用了一种「混合式结构」:
文字输入 → [自回归生成器] → 语义表示 → [扩散解码器] → 图像输出
这两个模块互相协作:
第一步:语言模型理解文字 → 生成语义布局;
第二步:扩散模型据此生成细节 → 输出最终图像。
💡 理解 → 表达 → 渲染 三步走。
为什么叫“自回归(Auto-regressive)”?
“自回归”是一种模型生成方式,它不是“一次生成整张图片”,而是像语言模型一样,“一个 token 一个 token 地生成”。
想象你在画画: 1.
先想好主题;
再决定布局;
然后一点点画出细节。
GLM-Image 的自回归模块做的正是这件事:
每个 token 对应画面的一个语义片段;
模型逐步预测下一个“画面单元”;
直到构思完整。
这样带来的好处是:
能保持画面的逻辑一致;
对长句、多实体描述的理解更准确;
特别适合“知识密集型”场景(如科普、教育、广告)。
技术细节(逐层拆解)
(1)视觉编码:用 Semantic-VQ 表达图像语义
传统模型(如 DALL·E 或 SDXL) 在训练图像时通常会把图片切割成小块(patch)并编码成向量。
但不同编码方式的信息保留程度差距很大👇:
智谱 AI 经过实验发现:
使用 语义量化(Semantic-VQ) 的编码方式能让模型更懂内容。
所以 GLM-Image 采用 X-Omni 的语义量化算法。 每张图被压缩成 16 倍尺寸(16×16 的 patch), 编码为一串“语义 token”, 再输入自回归模块。
(2)多分辨率训练策略
GLM-Image 不是一次性训练高分辨率图片, 而是分阶段逐步提升画质:
模型最终能生成 最高 2048×2048 的图片。
这种渐进式策略使模型在每一阶段都能“稳步理解 + 稳定收敛”。
(3)扩散解码器(Diffusion Decoder)
当自回归模块生成了语义 token 后, 扩散解码器接手任务,把这些语义信息变成真实的画面。
它采用了:
DiT(Diffusion Transformer)结构;
Flow Matching 调度算法(让扩散收敛更快、更稳);
Glyph-byT5 小模型,用于改进中文字符渲染。
💬 为什么需要 Glyph-byT5?
因为中文文字在图像中包含细节笔画结构,传统扩散模型往往渲染错误。
Glyph-byT5 会把文字分解成字形特征,再让扩散模型“照着笔画画”。
(4)图像编辑机制
在进行图像编辑(如换背景、改衣服)时, GLM-Image 同时输入:
语义-VQ token;
参考图像的 VAE latent 表征。
采用 Block-Causal Attention(块级因果注意力), 在计算量减少的同时,能精准保持原图细节。
相比之下,像 Qwen-Image-Edit 那种“全注意力”方案虽然更精确,但速度更慢。
(5)后训练:强化学习双优化
GLM-Image 在训练完成后,还进行了一轮“强化微调”:
奖励信号包括:
HPSv3(美学得分)
OCR 准确率(文字清晰度)
VLM 对齐(语义准确性)
LPIPS(视觉感知相似度)
手部打分模型(提高手部生成质量)
结果是:GLM-Image 不仅“理解得准”,而且“画得漂亮”。
性能表现
GLM-Image 在多个权威基准测试中表现优秀,尤其是在中文任务上。
- 文本渲染(CVTG-2k)
在中文、英文、混合排版场景中都表现稳定。
平均文字识别准确率 0.9116(中文英文双优)
是所有开源模型中文字渲染最准确的模型。(优于 Qwen-Image 和 SD3.5)
- 长文本渲染(LongText-Bench)
中文准确率 0.979,几乎追平闭源的 Seedream 4.5
英文准确率 0.952
- 综合图像生成(OneIG)
英文任务总体得分 0.528
中文任务 0.511 (与 Qwen-Image-2512 相当,优于 CogView4)
特别在 “文本理解” 和 “逻辑推理” 两项指标上表现突出。
- 知识密集型任务(DPG-Bench)
在涉及复杂结构、实体关系、属性理解的任务中:
GLM-Image 得分 84.78,略低于 Qwen-Image(88.3
但在关系理解与结构生成方面表现稳定。
这意味着它在“理性生成任务”中依旧可靠。
官方介绍:https://z.ai/blog/glm-image
GitHub:https://github.com/zai-org/GLM-Image
模型:https://huggingface.co/zai-org/GLM-Image
文档:https://docs.z.ai/guides/image/glm-image