📰 正文
阿里巴巴旗下 Qwen 团队推出的一款创新图像生成与编辑模型:Qwen-Image-Layered。
其核心创新点在于:
将单张图像自动分解为多个独立的 RGBA 图层,从而赋予图像“内在可编辑性”(inherent editability)。
这种分层结构使得每个图像元素(如前景人物、文字、背景等)可以被单独编辑,而不会影响其他部分,显著提升了编辑的灵活度与保真度。
什么是 RGBA 图层?
传统图像只有 3 个通道:
R、G、B(红、绿、蓝)
RGBA 则在此基础上增加了一个:
A(Alpha)通道 —— 控制透明度。
因此,**每个图层(Layer)**不仅包含颜色信息,还能保存“哪些区域透明,哪些可见”。
通过堆叠这些图层(前层透明的地方让下面的层透出),即可重构出完整图像。
这种方式使得:
每个对象(人物、物体、文字、背景)都能被单独编辑;
图层之间天然隔离,不会互相干扰;
操作(移动、缩放、删除)都不会影响其他层。
一句话解释:
Qwen-Image-Layered 是一个可以“自动把图片拆成多层”的 AI 模型,让你像在 Photoshop 里一样编辑图片,但不需要自己动手抠图。
我们平常看到的图片(比如一张女孩站在花园里的照片)其实是 所有元素叠在一起的平面图像。
传统图片的问题是:
改一个地方(比如换衣服、改文字)会影响整张图;
删除东西容易留下痕迹;
想重新组合不同元素很麻烦。
而 Qwen-Image-Layered 就是为了解决这些问题。
它能自动把一张图片拆成多个「图层」,比如:
每一层都是一个带透明通道的 RGBA 图像(RGB + Alpha 通道),就像 Photoshop 的图层那样,你可以单独调整、隐藏或移动。
模型功能与应用示例
由于各图层在物理上相互独立,分解完成后,编辑操作仅作用于目标图层,将其与其他内容物理隔离,从根本上确保了编辑的一致性。
- 局部编辑(Localized Editing)
重新着色(Recoloring):调整单一图层的颜色属性; 你可以只改某个图层的颜色,比如给女孩的衣服换成蓝色,而背景、头发都不会被影响。
对象替换(Object Replacement):将某一图层中的目标替换为其他内容; 模型能让你直接把“女孩”这一层替换成“男孩”,其他图层仍保持原样。
文字修改(Text Replacement):独立修改图层中的文字元素; 如果图片里有字,比如 “Hello”,你可以只改文字图层,把它改成 “Qwen-Image”。
物体删除(Object Removal):直接移除某层并重新合成图像; 比如去掉背景中的路人、垃圾桶、广告牌等,删除后不会出现“糊”的地方。
几何变换(Geometric Transformation):对层内对象进行平移、缩放、旋转等操作而无失真。 普通图片放大一个元素会失真,而这里每个图层是独立的,所以缩放时不会损坏其他部分。
自由移动:你可以在画布上拖动人物、物体到新位置,因为每个对象都在独立图层上。
- 可变层结构与递归分解(Variable & Recursive Layering)
模型支持动态生成不同数量的层(例如3层、5层、8层等);
任意图层都可再输入模型进行二级分解(Recursive Decomposition),形成层级化结构(Layer Hierarchy)。
📘 意义: 实现从宏观(前景/背景)到微观(人物细节、配饰等)的多层次理解。
“可变层结构”是什么
以前的图像分层或分割模型通常只能把图像固定地分成两层,比如:
前景(foreground)
背景(background)
但现实世界中的图像往往更复杂,例如:
一张包含背景风景、人物、衣服、手中物品、文字的图片, 如果只分两层,是不够细的。
Qwen-Image-Layered 的改进
这篇论文的模型不再固定层数,而是可以自动决定分几层,也就是说:
模型会根据图像内容的复杂程度,自适应生成 N 个图层, N 可以是 3、5、8……由模型自己决定。
举例:
这样,每层都是独立的、可单独编辑的 RGBA 图像。 模型不需要你告诉它分几层,它会动态决定合适层数。
“递归分解(Recursive Decomposition)”
“递归(Recursive)”的意思是:
模型可以对“分出来的某一层”,再次执行同样的分解操作。
换句话说:
不是只分一轮,而是可以“层中有层”。
举个具体例子:
假设模型第一次分解一张图片(图层 1–4):
然后你对 Layer 2(人物层) 再执行一次分解,模型可以把这一层拆得更细:
如此,模型实现了层级化结构(Layer Hierarchy):
图像
├── 背景层
├── 人物层
│ ├── 头发层
│ ├── 衣服层
│ └── 鞋子层
├── 动物层
└── 文字层
为什么要这样做?
1️⃣ 现实图像是“多层次”的
真实图像包含:
语义层次(人、物体、背景)
几何层次(前后遮挡)
视觉层次(颜色、光照、透明度)
一个平面的像素图无法同时表达这些关系。 分层 → 递归分层,正是模拟人类感知图像结构的方式。
2️⃣ 递归分解提升了“可编辑性”
如果你想修改人物的衣服颜色,就不需要改整个“人物层”; 递归分层后,直接操作“衣服子层”即可, 避免影响头发、皮肤、阴影等部分。
这种层级式表示使得编辑可以精确到局部对象,而仍保持整体一致。
3️⃣ 提高模型的语义理解与泛化能力
在训练时,递归分层能让模型学习到:
不同层之间的语义独立性;
层级间的组合关系;
层内部结构的细粒度表示。
因此模型不仅能“拆图”,还能“理解图像组成逻辑”。
它让 AI 从“平面图像生成者”变为“结构化图像理解者”。
模型能在不同语义层次(从场景到局部)进行理解与编辑,实现真正的层次化视觉操作。
模型的三大技术模块
整套模型是由三个核心技术模块组成的: 🧩 RGBA-VAE 🧠 VLD-MMDiT 📈 Multi-Stage Training
1️⃣ RGBA-VAE —— 让模型理解“透明图层”
🧩 它是干什么的?
VAE(变分自编码器)是一个常见的图像压缩网络。 它能把图像压成“潜空间向量”(latent vector)再重建回来。 但以前的 VAE 只能处理 RGB 图像。
Qwen 团队改进为 RGBA-VAE:
支持四个通道(Red, Green, Blue, Alpha);
可以同时理解颜色 + 透明度;
让模型知道“哪些区域属于物体,哪些是透明背景”。
📘 直白理解: 普通模型只知道“有颜色的地方”, RGBA-VAE 还能理解“空白的地方”。 所以它能学会“图层之间怎么叠在一起”。
📊 实验结果: RGBA-VAE 重建图像的质量显著提升,清晰度高、边缘自然。
2️⃣ VLD-MMDiT —— 模型的大脑
全称:Variable Layers Decomposition Multi-Modal Diffusion Transformer (可变层分解的多模态扩散变换器)
听起来复杂,但本质上它做三件事:
(1)支持可变层数输出
以往模型输出的层数是固定的(例如两层:前景+背景)。 而 Qwen 的模型可以根据图像复杂度自动决定要拆成几层。
🧠 简单比喻:
如果是一张简单肖像图,模型可能只分3层(背景 / 人物 / 文字);
如果是一张复杂的广告图,可能会分成8层(背景 / 人物 / 产品 / 反光 / 阴影 / 图标 / 文字 / 前景光效)。
📘 这就叫做:可变层结构(Variable Layering)。
(2)能处理图像与文字双输入(多模态)
VLD-MMDiT 既能从图像分解出图层(I2L), 也能从文本直接生成图层(T2L)。
🧩 例如:
“一个女孩拿着花站在草地上” 模型会生成:
Layer1:背景草地
Layer2:女孩
Layer3:花
Layer4:阳光反射
这就是文字到多层图像生成(Text-to-Layers)。
(3)让模型理解层与层的关系
论文引入一个叫 Layer3D RoPE(三维相对位置编码) 的机制。
📘 通俗解释:
模型在看图层时,不仅知道“这个像素在图里哪儿”, 还知道“这个像素属于第几层(上面还是下面)”。
这能让模型生成正确的层叠顺序(例如人物在背景前,阴影在地面上)。
3️⃣ Multi-Stage Training —— 分阶段训练法
直接教 AI “从图像拆出所有图层”太难了。 所以作者采用了一个循序渐进的训练过程,类似人类学习从简单到复杂:
📘 意思是:
模型先学会“画出图层”, 再学会“理解别人画的图层”, 最后学会“自动分解图层”。
这让模型训练更稳定,也避免直接分解带来的崩溃问题。
数据构建:让模型真正“见过图层”
他们从真实的 Photoshop PSD 文件 提取了带图层的数据:
每个 PSD 文件包含多个对象层;
自动过滤无效层;
合并重叠层;
用 Qwen2.5-VL 自动生成图像描述。
这样,模型在训练时就能“看到”真实的图层结构, 学会真实世界中图层之间的组合关系。
📊 数据覆盖:人物、产品、场景、文字、UI、广告等。
潜在应用前景
AI设计与绘图软件: 自动为图像生成可编辑图层,直接导入 Photoshop、Figma。
AIGC 内容创作: 生成图像后可精准微调,不再受“整体变化”限制。
游戏与动画建模: 自动拆分角色、背景、特效层,便于动态渲染。
智能修图与广告制作: 一键删除对象、替换文案或商品,无需重新渲染整张图。
一些案例:
模型已开放至以下平台:
GitHub
Hugging Face
ModelScope
在线 Demo 亦已上线
技术报告:https://arxiv.org/pdf/2512.15603