USO ：可以同时控制画面的风格和人物外观的图像生成模型 实现准确的风格迁移和强大的主体一致性

📰 正文

USO 是字节跳动提出的一个统一图像生成模型，全称为：

Unified Style-Subject Optimized 模型

它融合了风格驱动生成与主体驱动生成两个任务，并通过创新的训练机制将它们整合在一个统一框架中，解决了二者长期以来分离、互相影响的问题。

可以完成：

风格迁移：让图像拥有某种特定艺术风格，例如油画风、像素风、卡通风；

主体保持：让图像中的人物或物体保持原样，不会在风格变化时丢失原有外观；

两者结合：既改变图像风格，又完整保留主体外观，比如“把我的照片画成梵高风格”。

📸 简单理解：

就像你拿一张人的照片 + 一张画风图，USO 可以生成：

“这张人像照片 → 被画成参考图那种风格，但脸没变，姿势也对。”

这是传统模型很难做到的。

USO 试图解决什么问题？

图像生成领域，常见两大任务： 1.

风格驱动生成把图像转成某种画风（如卡通、水彩），但常常导致主体特征丢失。

主体驱动生成保留特定人物或物体外貌，生成不同场景下的图片，但风格变化能力有限。

⚠️ 痛点：

传统方法往往只能在这两者中取其一——要么风格准确但人物变形或丢失，要么人物还原很好但风格迁移不充分。

核心难点在于：图像中的“风格”和“主体”特征本质上是交织在一起的，如何“分开抽取”、再“有选择地组合”，长期以来是一个技术瓶颈。

USO 的核心理念

USO 的核心观点是：

风格信息和主体信息本质上是可以“拆开”并“重新组合”的，只要训练得当，模型是可以学会在同一张图中只改变风格不动主体，或者只动主体不动风格，甚至两个一起动。

为此，USO 提出了一套完整的方法框架，包括三种关键机制：

USO 的三大关键机制

三元组训练数据 Triplets

USO 使用一种特别的数据结构来训练模型，每个训练样本是三个图像：

内容图（主体图）：包含你想保留的主体，比如一个人的照片；

风格图：提供目标风格，比如油画、像素风等；

结果图：是内容图 + 风格图融合后的图像，作为训练的监督信号。

这样训练后，模型学会从风格图中提取“风格”，从内容图中提取“主体”，然后学会怎么把两者融合。

🧠 这个结构能帮助模型“看懂”风格与内容各负责什么，不混淆。

风格对齐训练 Style Alignment

风格有很多种，有的很抽象（比如梵高），有的很具体（比如皮革质感）。要提取这些风格特征，USO 采用了比传统 VAE 更强的视觉语言模型 SigLIP。

它可以捕捉图像中的高层次风格信息，比如用什么材料、用什么技法；

然后通过一个“分层特征投影器”，把这些信息以合适的方式送入图像生成模型中。

这个过程叫“风格对齐”，就是让风格信息进入模型时语义清晰、层次分明，让模型学得准。

风格奖励学习 Style Reward Learning（SRL）

除了传统的图像损失，USO 引入了一个奖励机制：

每次模型生成图像后，用一个预先训练好的模型来打分：“风格是否足够像？”

然后根据这个分数调整模型的参数——风格越像分数越高，模型就会朝那个方向优化。

这个机制极大地提升了风格还原能力，特别是面对像素风、素描、漫画这类高抽象风格时，USO 比传统模型表现更稳定。

USO 能做什么？

通过上述训练策略，USO 获得了以下能力：

准确的风格迁移能够从抽象或细节丰富的风格图中提取核心风格特征，并稳定应用到其他图像上。

强大的主体一致性对于输入的人物、宠物等主体，能精确保留其结构、面部特征和姿态。

风格+主体自由组合可以任意指定一个风格图和一个主体图，并生成融合二者的新图像——这点是现有方法普遍缺乏的。

支持文字控制生成除了图像输入，还可以使用自然语言 prompt 控制图像内容，实现更复杂的场景组合和语义控制。

可调节布局与姿态不再仅限于保留原图布局，支持主体的姿态变化、背景调整、布局打乱等自由组合。

主体驱动生成（Subject-driven Generation）

✅ 功能简介：

根据一张内容图像（如人物、动物等）与文字描述，保留主体结构与外貌特征，生成新的背景、姿态或风格图像。

🧠 技术核心：

内容提取网络识别主体结构

利用文本 prompt 辅助内容生成

使用解耦模型保留主体特征并生成新的视觉场景

📌 使用示例：

风格驱动生成（Style-driven Generation）

✅ 功能简介：

仅通过风格参考图 + 文本描述，生成一张带有指定风格的新图像。

🧠 技术核心：

风格编码模块提取色彩、纹理、笔触等风格特征

风格对齐训练使模型生成风格接近参考图的图像

📌 使用示例：

风格+主体联合生成（Style-Subject Driven Generation）

✅ 功能简介：

同时提供内容图与风格图，生成兼具主体一致性与风格特征的图像。

🧠 技术核心：

风格-内容双分支处理并融合

使用风格奖励学习（style reward learning）强化生成效果

📌 使用示例：

多风格融合生成（Multi-style Fusion Generation）

✅ 功能简介：

支持多张风格图融合生成图像，实现风格混合（如油画 + 水彩 + 数码风）。

🧠 技术核心：

风格特征聚合策略（多风格融合）

权重机制协调多个风格分量的显著性

📌 使用示例：

布局保持生成（Layout-preserved Generation）

✅ 功能简介：

在不更改图像主体布局的情况下，只更改图像风格，适用于增强真实感或风格化处理。

🧠 技术核心：

提取图像空间布局信息（bounding box、pose等）

在内容编码中保留结构向量

设置 prompt 为空表示仅做风格迁移

📌 使用示例：

模型性能表现如何？

USO 在作者构建的 USO-Bench（统一评测基准）和公开数据集 DreamBench 上，均取得领先性能，具体体现在：

主体一致性指标（如 CLIP-I, DINO）：USO 优于所有主流主体驱动方法

风格相似性指标（如 CSD）：USO 在风格迁移能力上显著优于 DEADiff、StyleStudio 等 SOTA 方法

图文匹配度指标（CLIP-T）：在风格/主体/双任务场景下都保持高文本控制能力

此外，消融实验表明：若移除风格奖励模块、解耦设计或分层特征提取机制，模型性能均会明显下降。

项目地址：https://bytedance.github.io/USO/

GitHub：https://github.com/bytedance/USO

论文：https://arxiv.org/pdf/2508.18966

在线体验：https://huggingface.co/spaces/bytedance-research/USO

来源：USO ：可以同时控制画面的风格和人物外观的图像生成模型实现准确的风格迁移和强大的主体一致性

📰 正文#

📰 正文