InfiniteYou：基于 FLUX 的“换装换背景但不换脸”的AI工具 可以将你的面部转移到任何场景和姿态中

📰 正文

InfiniteYou（简称 InfU）是字节跳动推出的首个基于 DiT（ FLUX）的稳定身份保持图像生成系统。它可以根据一张人脸图像和一段文本描述，生成一张保留该人身份特征、同时满足文字描述的高质量图像。

也就是，它是一个能“换装换背景但不换脸”的AI工具。你可以输入一张人脸照片和一句文字描述（如“在花园里的亚洲女孩”），它就能生成一张保持这个人脸身份、场景和风格一致的照片。

这意味这你可以将你的面部转移到任何场景和姿态中。

它解决了什么问题？以往方法生成的图片虽然“像”，但经常：

人脸不像（比如套壳复制）：传统方法（如 Stable Diffusion、IP-Adapter）容易出现人脸不准确，像“复制粘贴”一样的结果，缺乏细节和自然感。

和文字描述不一致：即使生成了图像，也可能与输入的文本描述不符合，比如描述“穿金色裙子的女孩”，图像可能穿成了白色婚纱。

图像质量和审美差：很多方法生成的图像存在模糊、面部扭曲、背景错误、手指畸形等问题，缺乏美感和真实感。

缺乏灵活性和可扩展性：早期方法大多基于 U-Net 架构，限制了生成能力，缺乏对新模型（如 DiTs）的适配性，也难以与控制插件（如 ControlNet、LoRA）配合使用。

它怎么解决的？它用了三个高招： 1.

用新的“Diffusion Transformer”模型（像FLUX）来提升生成质量；

发明了一个“身份注入器”InfuseNet，把人脸信息通过“旁路”加入主模型，避免干扰图像生成；

先用真实人脸数据做基础训练，再用自制的高质量图像做精细微调。

效果如何？

图像更像真人、更符合描述、也更漂亮。

用户测试中大多数人都更喜欢它生成的图。

能用在哪？可以用于头像生成、AI写真、虚拟人建模、换装换背景换风格等各种定制场景。

🚀InfiniteYou 的主要功能

🛠️ 技术细节详解

🌐 核心架构：InfU（InfiniteYou Framework）

基座模型：FLUX（DiT）

身份注入模块：InfuseNet

类似 ControlNet，但专门为身份特征设计

使用残差连接（residual connection）将身份特征“注入”模型

不修改注意力层，避免 IPA 带来的文本混淆和画质下降问题

🧠 多阶段训练策略（Multi-stage Training）

引入的采用合成单人多样本 (SPMS) 数据和监督微调 (SFT) 的多阶段训练策略。

🧩 插拔式设计（Plug-and-Play）

兼容模块包括：

✅ FLUX.1-dev / FLUX.1-schnell（快推理版本）

✅ ControlNet（姿势/边缘控制）

✅ LoRA（快速注入风格或新能力）

✅ IP-Adapter（用于风格迁移、参考图像）

📊 性能对比（与 SOTA 方法）

InfiniteYou 的结果在身份保持、文本控制、美观程度上全面优于现有方法

避免了 PuLID-FLUX 中出现的“脸贴图感”、手部变形等问题

🌈 应用场景

项目地址：https://bytedance.github.io/InfiniteYou/

GitHub：https://github.com/bytedance/InfiniteYou

技术报告：https://arxiv.org/pdf/2503.16418

模型下载：https://huggingface.co/ByteDance/InfiniteYou

在线体验：https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX