📰 正文

阿里巴巴 通义实验)发布了一款名为Z-Image(造相)的高效图像生成基础模型。

模型参数:6B(60亿)

显存占用:16GB以下即可运行

生成速度:8步采样即可出图

支持设备:消费级显卡即可流畅运行

它是通义家族中首个完全开源、支持中英文双语、性能接近 Gemini 的模型系列。

而其中的核心版本 —— Z-Image-Turbo,是它的“极速版”,主打三个关键词:

⚡ 快 —— 只需 8 步生成高清图像(别人要 30~50 步)。

🎨 精 —— 画面写实、光影自然、文字可控(中英双语)。

🧠 聪明 —— 能理解复杂指令并准确执行图像变化。

它的核心目标是:

在保持照片级真实感(photorealism)的同时,大幅降低计算和显存成本, 让顶级AI图像生成技术可以在普通显卡上流畅运行(16GB显存即可)。

image

Z-Image 家族结构

Z-Image 包含两个主要模型,覆盖生成与编辑任务:

image

两个模型均完全开源,包含代码、权重、推理接口及在线Demo。 支持 Hugging Face 与 ModelScope 平台。

模型能力

image

🖼️ 1. 照片级真实感

Z-Image-Turbo 在人物、物体、光影上的表现接近摄影级别:

光线自然衔接;

肌肤纹理真实;

景深层次明显;

色彩平衡柔和。

它能在真实感与美感之间达到较好平衡。

image

image

image


🈶 2. 中英文文字渲染

Z-Image 在中文文字生成上具备独特优势:

字体形态稳定(不会乱码或错位);

可识别中英文混排;

排版构图协调(适合广告、封面等场景)。

image

例如在海报任务中:

“生成写有‘未来智绘·通义造相’的科幻海报”, 模型输出字体清晰、构图合理,几乎媲美商业排版。

image

image

image

image


🧠 3. 语义与文化理解

Z-Image 展现出深厚的语义理解与文化建模能力。

不只是“画画”,它“懂文化、懂世界”。 它知道地标、人物、节日、诗词等概念。

例如:

能正确生成「苏轼夜游承天寺」的场景;

可视化古诗内容,根据诗句画意境图;

根据地理坐标生成特定地区景象(如“杭州西湖”)。

还能理解中国传统文化,比如茶艺、书法、节气等。

image

image

image

image

这说明模型具备常识推理与文化知识嵌入能力, 不是单纯的“画图机器”。


✍️ 4. 复杂图像编辑

Z-Image-Edit 能执行复杂的文字式编辑命令:

“让人物笑起来,背景改成雪天,保留原衣服颜色。”

模型能同时调整表情、环境与光照, 并保持画面一致性。

image

甚至可在图中定位修改特定文字, 如“把海报中所有‘鹅’改成‘猫’”, 或修改服装颜色、替换物品等。

image

image

image

image

🧮 5. 会推理、会思考

它的 Prompt Enhancer(提示词增强器) 内置了“逻辑思维链”, 可以理解复杂任务或模糊指令。

例如:

“鸡兔同笼,共35个头,94只脚,求鸡兔数量” Z-Image 知道该画出鸡和兔的数量对应场景。

image

或者:

“帮我画《登科后》的意境图” 它能理解诗意,而不是简单地把文字照搬上去。

image

架构原理:Single-Stream Diffusion Transformer(单流扩散Transformer)

🧩 核心思路:

传统扩散模型(如Stable Diffusion XL或FLUX)通常使用“双流结构”:

一条通道处理文字;

另一条通道处理图像特征。

Z-Image 的设计理念是**“信息融合应在同一语义空间完成”**。 于是提出了 S3-DiT(Scalable Single-Stream Diffusion Transformer):

将文字、图像嵌入、视觉语义token与噪声潜变量全部合并成一个序列, 然后统一输入到Transformer中处理。

image

📈 优势:

结构紧凑 → 参数利用率高、推理速度快;

语义对齐好 → 语言与视觉上下文无缝融合;

显存占用低 → 16GB GPU 即可生成1024×1024图像。

这使得 Z-Image 能在仅 6B 参数下,表现出媲美 50B 级模型的效果。

关键技术亮点

1️⃣ 高效蒸馏:Decoupled-DMD 算法

Z-Image-Turbo 的高效性来源于其创新的蒸馏算法—— Decoupled Distribution Matching Distillation (Decoupled-DMD)。

它将蒸馏过程拆分为两个独立机制:

CFG Augmentation(CA):像“加速引擎”,提升蒸馏效率;

Distribution Matching(DM):像“稳定系统”,控制图像质量。

结果是:

模型只需 8步推理(8 NFEs) 即可完成图像生成, 而主流扩散模型往往需要 30~50 步。

image


2️⃣ DMDR:蒸馏与强化学习融合

进一步地,通义团队提出 DMDR(DMD + Reinforcement Learning)策略: 通过将蒸馏与强化学习结合, 在“少步生成”的同时仍保持高语义一致性与审美平衡。

这让 Z-Image 不仅快,而且画面结构稳、光影统一、细节丰富。

image


3️⃣ Prompt Enhancer(提示词增强器)

Z-Image 内置提示词推理模块(Prompt Enhancer, PE), 能在用户输入时自动补充语义上下文与常识逻辑。

例如用户输入:

“帮我画一只在月光下喝茶的熊猫”

模型内部会自动增强为:

“夜晚竹林场景,柔和月光洒在熊猫身上,茶壶冒着热气,氛围宁静祥和。”

从而生成更具画面感与逻辑性的图像。

性能对比

image

Z-Image 用 1/3 的计算量,达到了与国际商业模型几乎相同的视觉质量。

根据 Elo 人类偏好评估(在 AI Arena 上),Z-Image 与其他领先模型相比表现出极强的竞争力,同时在开源模型中取得了最先进的结果。

image

项目地址:https://tongyi-mai.github.io/Z-Image-homepage/

GitHub:https://github.com/Tongyi-MAI/Z-Image

模型下载:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

在线体验:

https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo

https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo


来源:阿里巴巴发布全新图像模型:Z-Image 1/3 的参数 达到了与国际商业模型几乎相同的视觉质量