📰 正文

USO 是字节跳动提出的一个统一图像生成模型,全称为:

Unified Style-Subject Optimized 模型

它融合了风格驱动生成与主体驱动生成两个任务,并通过创新的训练机制将它们整合在一个统一框架中,解决了二者长期以来分离、互相影响的问题。

可以完成:

风格迁移:让图像拥有某种特定艺术风格,例如油画风、像素风、卡通风;

主体保持:让图像中的人物或物体保持原样,不会在风格变化时丢失原有外观;

两者结合:既改变图像风格,又完整保留主体外观,比如“把我的照片画成梵高风格”。

📸 简单理解:

就像你拿一张人的照片 + 一张画风图,USO 可以生成:

“这张人像照片 → 被画成参考图那种风格,但脸没变,姿势也对。”

这是传统模型很难做到的。


USO 试图解决什么问题?

图像生成领域,常见两大任务: 1.

风格驱动生成 把图像转成某种画风(如卡通、水彩),但常常导致主体特征丢失。

主体驱动生成 保留特定人物或物体外貌,生成不同场景下的图片,但风格变化能力有限。

⚠️ 痛点:

image

传统方法往往只能在这两者中取其一——要么风格准确但人物变形或丢失,要么人物还原很好但风格迁移不充分。

核心难点在于:图像中的“风格”和“主体”特征本质上是交织在一起的,如何“分开抽取”、再“有选择地组合”,长期以来是一个技术瓶颈。

USO 的核心理念

USO 的核心观点是:

风格信息和主体信息本质上是可以“拆开”并“重新组合”的,只要训练得当,模型是可以学会在同一张图中只改变风格不动主体,或者只动主体不动风格,甚至两个一起动。

为此,USO 提出了一套完整的方法框架,包括三种关键机制:


USO 的三大关键机制

  1. 三元组训练数据 Triplets

USO 使用一种特别的数据结构来训练模型,每个训练样本是三个图像:

内容图(主体图):包含你想保留的主体,比如一个人的照片;

风格图:提供目标风格,比如油画、像素风等;

结果图:是内容图 + 风格图融合后的图像,作为训练的监督信号。

这样训练后,模型学会从风格图中提取“风格”,从内容图中提取“主体”,然后学会怎么把两者融合。

🧠 这个结构能帮助模型“看懂”风格与内容各负责什么,不混淆。


  1. 风格对齐训练 Style Alignment

风格有很多种,有的很抽象(比如梵高),有的很具体(比如皮革质感)。要提取这些风格特征,USO 采用了比传统 VAE 更强的视觉语言模型 SigLIP。

它可以捕捉图像中的高层次风格信息,比如用什么材料、用什么技法;

然后通过一个“分层特征投影器”,把这些信息以合适的方式送入图像生成模型中。

这个过程叫“风格对齐”,就是让风格信息进入模型时语义清晰、层次分明,让模型学得准。


  1. 风格奖励学习 Style Reward Learning(SRL)

除了传统的图像损失,USO 引入了一个奖励机制:

每次模型生成图像后,用一个预先训练好的模型来打分:“风格是否足够像?”

然后根据这个分数调整模型的参数——风格越像分数越高,模型就会朝那个方向优化。

这个机制极大地提升了风格还原能力,特别是面对像素风、素描、漫画这类高抽象风格时,USO 比传统模型表现更稳定。

USO 能做什么?

通过上述训练策略,USO 获得了以下能力:

image 1.

准确的风格迁移 能够从抽象或细节丰富的风格图中提取核心风格特征,并稳定应用到其他图像上。

强大的主体一致性 对于输入的人物、宠物等主体,能精确保留其结构、面部特征和姿态。

风格+主体自由组合 可以任意指定一个风格图和一个主体图,并生成融合二者的新图像——这点是现有方法普遍缺乏的。

支持文字控制生成 除了图像输入,还可以使用自然语言 prompt 控制图像内容,实现更复杂的场景组合和语义控制。

可调节布局与姿态 不再仅限于保留原图布局,支持主体的姿态变化、背景调整、布局打乱等自由组合。

  1. 主体驱动生成(Subject-driven Generation)

✅ 功能简介:

根据一张内容图像(如人物、动物等)与文字描述,保留主体结构与外貌特征,生成新的背景、姿态或风格图像。

🧠 技术核心:

内容提取网络识别主体结构

利用文本 prompt 辅助内容生成

使用解耦模型保留主体特征并生成新的视觉场景

📌 使用示例:

image

image

  1. 风格驱动生成(Style-driven Generation)

✅ 功能简介:

仅通过风格参考图 + 文本描述,生成一张带有指定风格的新图像。

🧠 技术核心:

风格编码模块提取色彩、纹理、笔触等风格特征

风格对齐训练使模型生成风格接近参考图的图像

📌 使用示例:

image

image

  1. 风格+主体联合生成(Style-Subject Driven Generation)

✅ 功能简介:

同时提供内容图与风格图,生成兼具主体一致性与风格特征的图像。

🧠 技术核心:

风格-内容双分支处理并融合

使用风格奖励学习(style reward learning)强化生成效果

📌 使用示例:

image

  1. 多风格融合生成(Multi-style Fusion Generation)

✅ 功能简介:

支持多张风格图融合生成图像,实现风格混合(如油画 + 水彩 + 数码风)。

🧠 技术核心:

风格特征聚合策略(多风格融合)

权重机制协调多个风格分量的显著性

📌 使用示例:

image

  1. 布局保持生成(Layout-preserved Generation)

✅ 功能简介:

在不更改图像主体布局的情况下,只更改图像风格,适用于增强真实感或风格化处理。

🧠 技术核心:

提取图像空间布局信息(bounding box、pose等)

在内容编码中保留结构向量

设置 prompt 为空表示仅做风格迁移

📌 使用示例:

image

模型性能表现如何?

USO 在作者构建的 USO-Bench(统一评测基准)和公开数据集 DreamBench 上,均取得领先性能,具体体现在:

主体一致性指标(如 CLIP-I, DINO):USO 优于所有主流主体驱动方法

风格相似性指标(如 CSD):USO 在风格迁移能力上显著优于 DEADiff、StyleStudio 等 SOTA 方法

图文匹配度指标(CLIP-T):在风格/主体/双任务场景下都保持高文本控制能力

image

此外,消融实验表明:若移除风格奖励模块、解耦设计或分层特征提取机制,模型性能均会明显下降。

项目地址:https://bytedance.github.io/USO/

GitHub:https://github.com/bytedance/USO

论文:https://arxiv.org/pdf/2508.18966

在线体验:https://huggingface.co/spaces/bytedance-research/USO


来源:USO :可以同时控制画面的风格和人物外观的图像生成模型 实现准确的风格迁移和强大的主体一致性