阿里巴巴发布 Photoshop 级别的图像分层模型：Qwen-Image-Layered

📰 正文

阿里巴巴旗下 Qwen 团队推出的一款创新图像生成与编辑模型：Qwen-Image-Layered。

其核心创新点在于：

将单张图像自动分解为多个独立的 RGBA 图层，从而赋予图像“内在可编辑性”（inherent editability）。

这种分层结构使得每个图像元素（如前景人物、文字、背景等）可以被单独编辑，而不会影响其他部分，显著提升了编辑的灵活度与保真度。

什么是 RGBA 图层？

传统图像只有 3 个通道：

R、G、B（红、绿、蓝）

RGBA 则在此基础上增加了一个：

A（Alpha）通道 —— 控制透明度。

因此，**每个图层（Layer）**不仅包含颜色信息，还能保存“哪些区域透明，哪些可见”。

通过堆叠这些图层（前层透明的地方让下面的层透出），即可重构出完整图像。

这种方式使得：

每个对象（人物、物体、文字、背景）都能被单独编辑；

图层之间天然隔离，不会互相干扰；

操作（移动、缩放、删除）都不会影响其他层。

一句话解释：

Qwen-Image-Layered 是一个可以“自动把图片拆成多层”的 AI 模型，让你像在 Photoshop 里一样编辑图片，但不需要自己动手抠图。

我们平常看到的图片（比如一张女孩站在花园里的照片）其实是所有元素叠在一起的平面图像。

传统图片的问题是：

改一个地方（比如换衣服、改文字）会影响整张图；

删除东西容易留下痕迹；

想重新组合不同元素很麻烦。

而 Qwen-Image-Layered 就是为了解决这些问题。

它能自动把一张图片拆成多个「图层」，比如：

每一层都是一个带透明通道的 RGBA 图像（RGB + Alpha 通道），就像 Photoshop 的图层那样，你可以单独调整、隐藏或移动。

模型功能与应用示例

由于各图层在物理上相互独立，分解完成后，编辑操作仅作用于目标图层，将其与其他内容物理隔离，从根本上确保了编辑的一致性。

局部编辑（Localized Editing）

重新着色（Recoloring）：调整单一图层的颜色属性；你可以只改某个图层的颜色，比如给女孩的衣服换成蓝色，而背景、头发都不会被影响。

对象替换（Object Replacement）：将某一图层中的目标替换为其他内容；模型能让你直接把“女孩”这一层替换成“男孩”，其他图层仍保持原样。

文字修改（Text Replacement）：独立修改图层中的文字元素；如果图片里有字，比如 “Hello”，你可以只改文字图层，把它改成 “Qwen-Image”。

物体删除（Object Removal）：直接移除某层并重新合成图像；比如去掉背景中的路人、垃圾桶、广告牌等，删除后不会出现“糊”的地方。

几何变换（Geometric Transformation）：对层内对象进行平移、缩放、旋转等操作而无失真。普通图片放大一个元素会失真，而这里每个图层是独立的，所以缩放时不会损坏其他部分。

自由移动：你可以在画布上拖动人物、物体到新位置，因为每个对象都在独立图层上。

可变层结构与递归分解（Variable & Recursive Layering）

模型支持动态生成不同数量的层（例如3层、5层、8层等）；

任意图层都可再输入模型进行二级分解（Recursive Decomposition），形成层级化结构（Layer Hierarchy）。

📘 意义：实现从宏观（前景/背景）到微观（人物细节、配饰等）的多层次理解。

“可变层结构”是什么

以前的图像分层或分割模型通常只能把图像固定地分成两层，比如：

前景（foreground）

背景（background）

但现实世界中的图像往往更复杂，例如：

一张包含背景风景、人物、衣服、手中物品、文字的图片，如果只分两层，是不够细的。

Qwen-Image-Layered 的改进

这篇论文的模型不再固定层数，而是可以自动决定分几层，也就是说：

模型会根据图像内容的复杂程度，自适应生成 N 个图层， N 可以是 3、5、8……由模型自己决定。

举例：

这样，每层都是独立的、可单独编辑的 RGBA 图像。模型不需要你告诉它分几层，它会动态决定合适层数。

“递归分解（Recursive Decomposition）”

“递归（Recursive）”的意思是：

模型可以对“分出来的某一层”，再次执行同样的分解操作。

换句话说：

不是只分一轮，而是可以“层中有层”。

举个具体例子：

假设模型第一次分解一张图片（图层 1–4）：

然后你对 Layer 2（人物层）再执行一次分解，模型可以把这一层拆得更细：

如此，模型实现了层级化结构（Layer Hierarchy）：

图像
 ├── 背景层
 ├── 人物层
 │    ├── 头发层
 │    ├── 衣服层
 │    └── 鞋子层
 ├── 动物层
 └── 文字层

为什么要这样做？

1️⃣ 现实图像是“多层次”的

真实图像包含：

语义层次（人、物体、背景）

几何层次（前后遮挡）

视觉层次（颜色、光照、透明度）

一个平面的像素图无法同时表达这些关系。分层 → 递归分层，正是模拟人类感知图像结构的方式。

2️⃣ 递归分解提升了“可编辑性”

如果你想修改人物的衣服颜色，就不需要改整个“人物层”；递归分层后，直接操作“衣服子层”即可，避免影响头发、皮肤、阴影等部分。

这种层级式表示使得编辑可以精确到局部对象，而仍保持整体一致。

3️⃣ 提高模型的语义理解与泛化能力

在训练时，递归分层能让模型学习到：

不同层之间的语义独立性；

层级间的组合关系；

层内部结构的细粒度表示。

因此模型不仅能“拆图”，还能“理解图像组成逻辑”。

它让 AI 从“平面图像生成者”变为“结构化图像理解者”。

模型能在不同语义层次（从场景到局部）进行理解与编辑，实现真正的层次化视觉操作。

模型的三大技术模块

整套模型是由三个核心技术模块组成的： 🧩 RGBA-VAE 🧠 VLD-MMDiT 📈 Multi-Stage Training

1️⃣ RGBA-VAE —— 让模型理解“透明图层”

🧩 它是干什么的？

VAE（变分自编码器）是一个常见的图像压缩网络。它能把图像压成“潜空间向量”（latent vector）再重建回来。但以前的 VAE 只能处理 RGB 图像。

Qwen 团队改进为 RGBA-VAE：

支持四个通道（Red, Green, Blue, Alpha）；

可以同时理解颜色 + 透明度；

让模型知道“哪些区域属于物体，哪些是透明背景”。

📘 直白理解：普通模型只知道“有颜色的地方”， RGBA-VAE 还能理解“空白的地方”。所以它能学会“图层之间怎么叠在一起”。

📊 实验结果： RGBA-VAE 重建图像的质量显著提升，清晰度高、边缘自然。

2️⃣ VLD-MMDiT —— 模型的大脑

全称：Variable Layers Decomposition Multi-Modal Diffusion Transformer （可变层分解的多模态扩散变换器）

听起来复杂，但本质上它做三件事：

（1）支持可变层数输出

以往模型输出的层数是固定的（例如两层：前景+背景）。而 Qwen 的模型可以根据图像复杂度自动决定要拆成几层。

🧠 简单比喻：

如果是一张简单肖像图，模型可能只分3层（背景 / 人物 / 文字）；

如果是一张复杂的广告图，可能会分成8层（背景 / 人物 / 产品 / 反光 / 阴影 / 图标 / 文字 / 前景光效）。

📘 这就叫做：可变层结构（Variable Layering）。

（2）能处理图像与文字双输入（多模态）

VLD-MMDiT 既能从图像分解出图层（I2L），也能从文本直接生成图层（T2L）。

🧩 例如：

“一个女孩拿着花站在草地上” 模型会生成：

Layer1：背景草地

Layer2：女孩

Layer3：花

Layer4：阳光反射

这就是文字到多层图像生成（Text-to-Layers）。

（3）让模型理解层与层的关系

论文引入一个叫 Layer3D RoPE（三维相对位置编码）的机制。

📘 通俗解释：

模型在看图层时，不仅知道“这个像素在图里哪儿”，还知道“这个像素属于第几层（上面还是下面）”。

这能让模型生成正确的层叠顺序（例如人物在背景前，阴影在地面上）。

3️⃣ Multi-Stage Training —— 分阶段训练法

直接教 AI “从图像拆出所有图层”太难了。所以作者采用了一个循序渐进的训练过程，类似人类学习从简单到复杂：

📘 意思是：

模型先学会“画出图层”，再学会“理解别人画的图层”，最后学会“自动分解图层”。

这让模型训练更稳定，也避免直接分解带来的崩溃问题。

数据构建：让模型真正“见过图层”

他们从真实的 Photoshop PSD 文件提取了带图层的数据：

每个 PSD 文件包含多个对象层；

自动过滤无效层；

合并重叠层；

用 Qwen2.5-VL 自动生成图像描述。

这样，模型在训练时就能“看到”真实的图层结构，学会真实世界中图层之间的组合关系。

📊 数据覆盖：人物、产品、场景、文字、UI、广告等。

潜在应用前景

AI设计与绘图软件：自动为图像生成可编辑图层，直接导入 Photoshop、Figma。

AIGC 内容创作：生成图像后可精准微调，不再受“整体变化”限制。

游戏与动画建模：自动拆分角色、背景、特效层，便于动态渲染。

智能修图与广告制作：一键删除对象、替换文案或商品，无需重新渲染整张图。

一些案例：

模型已开放至以下平台：

GitHub

Hugging Face

ModelScope

在线 Demo 亦已上线

技术报告：https://arxiv.org/pdf/2512.15603

来源：阿里巴巴发布 Photoshop 级别的图像分层模型：Qwen-Image-Layered

📰 正文#

📰 正文