📰 正文

阿里巴巴旗下 Qwen 团队推出的一款创新图像生成与编辑模型:Qwen-Image-Layered。

其核心创新点在于:

将单张图像自动分解为多个独立的 RGBA 图层,从而赋予图像“内在可编辑性”(inherent editability)。

这种分层结构使得每个图像元素(如前景人物、文字、背景等)可以被单独编辑,而不会影响其他部分,显著提升了编辑的灵活度与保真度。

什么是 RGBA 图层?

传统图像只有 3 个通道:

R、G、B(红、绿、蓝)

RGBA 则在此基础上增加了一个:

A(Alpha)通道 —— 控制透明度。

因此,**每个图层(Layer)**不仅包含颜色信息,还能保存“哪些区域透明,哪些可见”。

通过堆叠这些图层(前层透明的地方让下面的层透出),即可重构出完整图像。

这种方式使得:

每个对象(人物、物体、文字、背景)都能被单独编辑;

图层之间天然隔离,不会互相干扰;

操作(移动、缩放、删除)都不会影响其他层。

image

一句话解释:

Qwen-Image-Layered 是一个可以“自动把图片拆成多层”的 AI 模型,让你像在 Photoshop 里一样编辑图片,但不需要自己动手抠图。

我们平常看到的图片(比如一张女孩站在花园里的照片)其实是 所有元素叠在一起的平面图像。

传统图片的问题是:

改一个地方(比如换衣服、改文字)会影响整张图;

删除东西容易留下痕迹;

想重新组合不同元素很麻烦。

而 Qwen-Image-Layered 就是为了解决这些问题。

它能自动把一张图片拆成多个「图层」,比如:

image

每一层都是一个带透明通道的 RGBA 图像(RGB + Alpha 通道),就像 Photoshop 的图层那样,你可以单独调整、隐藏或移动。

模型功能与应用示例

由于各图层在物理上相互独立,分解完成后,编辑操作仅作用于目标图层,将其与其他内容物理隔离,从根本上确保了编辑的一致性。

image

  1. 局部编辑(Localized Editing)

重新着色(Recoloring):调整单一图层的颜色属性; 你可以只改某个图层的颜色,比如给女孩的衣服换成蓝色,而背景、头发都不会被影响。

image

对象替换(Object Replacement):将某一图层中的目标替换为其他内容; 模型能让你直接把“女孩”这一层替换成“男孩”,其他图层仍保持原样。

image

文字修改(Text Replacement):独立修改图层中的文字元素; 如果图片里有字,比如 “Hello”,你可以只改文字图层,把它改成 “Qwen-Image”。

image

物体删除(Object Removal):直接移除某层并重新合成图像; 比如去掉背景中的路人、垃圾桶、广告牌等,删除后不会出现“糊”的地方。

image

几何变换(Geometric Transformation):对层内对象进行平移、缩放、旋转等操作而无失真。 普通图片放大一个元素会失真,而这里每个图层是独立的,所以缩放时不会损坏其他部分。

image

自由移动:你可以在画布上拖动人物、物体到新位置,因为每个对象都在独立图层上。

image

  1. 可变层结构与递归分解(Variable & Recursive Layering)

模型支持动态生成不同数量的层(例如3层、5层、8层等);

任意图层都可再输入模型进行二级分解(Recursive Decomposition),形成层级化结构(Layer Hierarchy)。

image

📘 意义: 实现从宏观(前景/背景)到微观(人物细节、配饰等)的多层次理解。

“可变层结构”是什么

以前的图像分层或分割模型通常只能把图像固定地分成两层,比如:

前景(foreground)

背景(background)

但现实世界中的图像往往更复杂,例如:

一张包含背景风景、人物、衣服、手中物品、文字的图片, 如果只分两层,是不够细的。


Qwen-Image-Layered 的改进

这篇论文的模型不再固定层数,而是可以自动决定分几层,也就是说:

模型会根据图像内容的复杂程度,自适应生成 N 个图层, N 可以是 3、5、8……由模型自己决定。

举例:

image

这样,每层都是独立的、可单独编辑的 RGBA 图像。 模型不需要你告诉它分几层,它会动态决定合适层数。

“递归分解(Recursive Decomposition)”

“递归(Recursive)”的意思是:

模型可以对“分出来的某一层”,再次执行同样的分解操作。

换句话说:

不是只分一轮,而是可以“层中有层”。

举个具体例子:

假设模型第一次分解一张图片(图层 1–4):

image

然后你对 Layer 2(人物层) 再执行一次分解,模型可以把这一层拆得更细:

image

如此,模型实现了层级化结构(Layer Hierarchy):

图像
 ├── 背景层
 ├── 人物层
 │    ├── 头发层
 │    ├── 衣服层
 │    └── 鞋子层
 ├── 动物层
 └── 文字层

为什么要这样做?

1️⃣ 现实图像是“多层次”的

真实图像包含:

语义层次(人、物体、背景)

几何层次(前后遮挡)

视觉层次(颜色、光照、透明度)

一个平面的像素图无法同时表达这些关系。 分层 → 递归分层,正是模拟人类感知图像结构的方式。


2️⃣ 递归分解提升了“可编辑性”

如果你想修改人物的衣服颜色,就不需要改整个“人物层”; 递归分层后,直接操作“衣服子层”即可, 避免影响头发、皮肤、阴影等部分。

这种层级式表示使得编辑可以精确到局部对象,而仍保持整体一致。


3️⃣ 提高模型的语义理解与泛化能力

在训练时,递归分层能让模型学习到:

不同层之间的语义独立性;

层级间的组合关系;

层内部结构的细粒度表示。

因此模型不仅能“拆图”,还能“理解图像组成逻辑”。

它让 AI 从“平面图像生成者”变为“结构化图像理解者”。

模型能在不同语义层次(从场景到局部)进行理解与编辑,实现真正的层次化视觉操作。


模型的三大技术模块

整套模型是由三个核心技术模块组成的: 🧩 RGBA-VAE 🧠 VLD-MMDiT 📈 Multi-Stage Training

image

1️⃣ RGBA-VAE —— 让模型理解“透明图层”

🧩 它是干什么的?

VAE(变分自编码器)是一个常见的图像压缩网络。 它能把图像压成“潜空间向量”(latent vector)再重建回来。 但以前的 VAE 只能处理 RGB 图像。

Qwen 团队改进为 RGBA-VAE:

支持四个通道(Red, Green, Blue, Alpha);

可以同时理解颜色 + 透明度;

让模型知道“哪些区域属于物体,哪些是透明背景”。

📘 直白理解: 普通模型只知道“有颜色的地方”, RGBA-VAE 还能理解“空白的地方”。 所以它能学会“图层之间怎么叠在一起”。

📊 实验结果: RGBA-VAE 重建图像的质量显著提升,清晰度高、边缘自然。


2️⃣ VLD-MMDiT —— 模型的大脑

全称:Variable Layers Decomposition Multi-Modal Diffusion Transformer (可变层分解的多模态扩散变换器)

听起来复杂,但本质上它做三件事:


(1)支持可变层数输出

以往模型输出的层数是固定的(例如两层:前景+背景)。 而 Qwen 的模型可以根据图像复杂度自动决定要拆成几层。

🧠 简单比喻:

如果是一张简单肖像图,模型可能只分3层(背景 / 人物 / 文字);

如果是一张复杂的广告图,可能会分成8层(背景 / 人物 / 产品 / 反光 / 阴影 / 图标 / 文字 / 前景光效)。

📘 这就叫做:可变层结构(Variable Layering)。


(2)能处理图像与文字双输入(多模态)

VLD-MMDiT 既能从图像分解出图层(I2L), 也能从文本直接生成图层(T2L)。

🧩 例如:

“一个女孩拿着花站在草地上” 模型会生成:

Layer1:背景草地

Layer2:女孩

Layer3:花

Layer4:阳光反射

这就是文字到多层图像生成(Text-to-Layers)。


(3)让模型理解层与层的关系

论文引入一个叫 Layer3D RoPE(三维相对位置编码) 的机制。

📘 通俗解释:

模型在看图层时,不仅知道“这个像素在图里哪儿”, 还知道“这个像素属于第几层(上面还是下面)”。

这能让模型生成正确的层叠顺序(例如人物在背景前,阴影在地面上)。


3️⃣ Multi-Stage Training —— 分阶段训练法

直接教 AI “从图像拆出所有图层”太难了。 所以作者采用了一个循序渐进的训练过程,类似人类学习从简单到复杂:

image

📘 意思是:

模型先学会“画出图层”, 再学会“理解别人画的图层”, 最后学会“自动分解图层”。

这让模型训练更稳定,也避免直接分解带来的崩溃问题。

数据构建:让模型真正“见过图层”

他们从真实的 Photoshop PSD 文件 提取了带图层的数据:

每个 PSD 文件包含多个对象层;

自动过滤无效层;

合并重叠层;

用 Qwen2.5-VL 自动生成图像描述。

这样,模型在训练时就能“看到”真实的图层结构, 学会真实世界中图层之间的组合关系。

📊 数据覆盖:人物、产品、场景、文字、UI、广告等。

潜在应用前景

AI设计与绘图软件: 自动为图像生成可编辑图层,直接导入 Photoshop、Figma。

AIGC 内容创作: 生成图像后可精准微调,不再受“整体变化”限制。

游戏与动画建模: 自动拆分角色、背景、特效层,便于动态渲染。

智能修图与广告制作: 一键删除对象、替换文案或商品,无需重新渲染整张图。

一些案例:

image

image

image

image

image

模型已开放至以下平台:

GitHub

Hugging Face

ModelScope

在线 Demo 亦已上线

技术报告:https://arxiv.org/pdf/2512.15603


来源:阿里巴巴发布 Photoshop 级别的图像分层模型:Qwen-Image-Layered