阿里巴巴发布全新图像模型：Z-Image 1/3 的参数 达到了与国际商业模型几乎相同的视觉质量

📰 正文

阿里巴巴通义实验）发布了一款名为Z-Image（造相）的高效图像生成基础模型。

模型参数：6B（60亿）

显存占用：16GB以下即可运行

生成速度：8步采样即可出图

支持设备：消费级显卡即可流畅运行

它是通义家族中首个完全开源、支持中英文双语、性能接近 Gemini 的模型系列。

而其中的核心版本 —— Z-Image-Turbo，是它的“极速版”，主打三个关键词：

⚡ 快 —— 只需 8 步生成高清图像（别人要 30～50 步）。

🎨 精 —— 画面写实、光影自然、文字可控（中英双语）。

🧠 聪明 —— 能理解复杂指令并准确执行图像变化。

它的核心目标是：

在保持照片级真实感（photorealism）的同时，大幅降低计算和显存成本，让顶级AI图像生成技术可以在普通显卡上流畅运行（16GB显存即可）。

Z-Image 家族结构

Z-Image 包含两个主要模型，覆盖生成与编辑任务：

两个模型均完全开源，包含代码、权重、推理接口及在线Demo。支持 Hugging Face 与 ModelScope 平台。

模型能力

🖼️ 1. 照片级真实感

Z-Image-Turbo 在人物、物体、光影上的表现接近摄影级别：

光线自然衔接；

肌肤纹理真实；

景深层次明显；

色彩平衡柔和。

它能在真实感与美感之间达到较好平衡。

🈶 2. 中英文文字渲染

Z-Image 在中文文字生成上具备独特优势：

字体形态稳定（不会乱码或错位）；

可识别中英文混排；

排版构图协调（适合广告、封面等场景）。

例如在海报任务中：

“生成写有‘未来智绘·通义造相’的科幻海报”，模型输出字体清晰、构图合理，几乎媲美商业排版。

🧠 3. 语义与文化理解

Z-Image 展现出深厚的语义理解与文化建模能力。

不只是“画画”，它“懂文化、懂世界”。它知道地标、人物、节日、诗词等概念。

例如：

能正确生成「苏轼夜游承天寺」的场景；

可视化古诗内容，根据诗句画意境图；

根据地理坐标生成特定地区景象（如“杭州西湖”）。

还能理解中国传统文化，比如茶艺、书法、节气等。

这说明模型具备常识推理与文化知识嵌入能力，不是单纯的“画图机器”。

✍️ 4. 复杂图像编辑

Z-Image-Edit 能执行复杂的文字式编辑命令：

“让人物笑起来，背景改成雪天，保留原衣服颜色。”

模型能同时调整表情、环境与光照，并保持画面一致性。

甚至可在图中定位修改特定文字，如“把海报中所有‘鹅’改成‘猫’”，或修改服装颜色、替换物品等。

🧮 5. 会推理、会思考

它的 Prompt Enhancer（提示词增强器）内置了“逻辑思维链”，可以理解复杂任务或模糊指令。

例如：

“鸡兔同笼，共35个头，94只脚，求鸡兔数量” Z-Image 知道该画出鸡和兔的数量对应场景。

或者：

“帮我画《登科后》的意境图” 它能理解诗意，而不是简单地把文字照搬上去。

架构原理：Single-Stream Diffusion Transformer（单流扩散Transformer）

🧩 核心思路：

传统扩散模型（如Stable Diffusion XL或FLUX）通常使用“双流结构”：

一条通道处理文字；

另一条通道处理图像特征。

Z-Image 的设计理念是**“信息融合应在同一语义空间完成”**。于是提出了 S3-DiT（Scalable Single-Stream Diffusion Transformer）：

将文字、图像嵌入、视觉语义token与噪声潜变量全部合并成一个序列，然后统一输入到Transformer中处理。

📈 优势：

结构紧凑 → 参数利用率高、推理速度快；

语义对齐好 → 语言与视觉上下文无缝融合；

显存占用低 → 16GB GPU 即可生成1024×1024图像。

这使得 Z-Image 能在仅 6B 参数下，表现出媲美 50B 级模型的效果。

关键技术亮点

1️⃣ 高效蒸馏：Decoupled-DMD 算法

Z-Image-Turbo 的高效性来源于其创新的蒸馏算法—— Decoupled Distribution Matching Distillation (Decoupled-DMD)。

它将蒸馏过程拆分为两个独立机制：

CFG Augmentation（CA）：像“加速引擎”，提升蒸馏效率；

Distribution Matching（DM）：像“稳定系统”，控制图像质量。

结果是：

模型只需 8步推理（8 NFEs）即可完成图像生成，而主流扩散模型往往需要 30～50 步。

2️⃣ DMDR：蒸馏与强化学习融合

进一步地，通义团队提出 DMDR（DMD + Reinforcement Learning）策略：通过将蒸馏与强化学习结合，在“少步生成”的同时仍保持高语义一致性与审美平衡。

这让 Z-Image 不仅快，而且画面结构稳、光影统一、细节丰富。

3️⃣ Prompt Enhancer（提示词增强器）

Z-Image 内置提示词推理模块（Prompt Enhancer, PE），能在用户输入时自动补充语义上下文与常识逻辑。

例如用户输入：

“帮我画一只在月光下喝茶的熊猫”

模型内部会自动增强为：

“夜晚竹林场景，柔和月光洒在熊猫身上，茶壶冒着热气，氛围宁静祥和。”

从而生成更具画面感与逻辑性的图像。

性能对比

Z-Image 用 1/3 的计算量，达到了与国际商业模型几乎相同的视觉质量。

根据 Elo 人类偏好评估（在 AI Arena 上），Z-Image 与其他领先模型相比表现出极强的竞争力，同时在开源模型中取得了最先进的结果。

项目地址：https://tongyi-mai.github.io/Z-Image-homepage/

GitHub：https://github.com/Tongyi-MAI/Z-Image

模型下载：https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

在线体验：

https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo

https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo

来源：阿里巴巴发布全新图像模型：Z-Image 1/3 的参数达到了与国际商业模型几乎相同的视觉质量

📰 正文#

📰 正文