📰 正文
InfiniteYou(简称 InfU) 是字节跳动推出的首个基于 DiT( FLUX)的稳定身份保持图像生成系统。它可以根据一张人脸图像和一段文本描述,生成一张 保留该人身份特征、同时 满足文字描述 的高质量图像。
也就是,它是一个能“换装换背景但不换脸”的AI工具。你可以输入一张人脸照片和一句文字描述(如“在花园里的亚洲女孩”),它就能生成一张保持这个人脸身份、场景和风格一致的照片。
这意味这你可以将你的面部转移到任何场景和姿态中。
它解决了什么问题? 以往方法生成的图片虽然“像”,但经常:
人脸不像(比如套壳复制):传统方法(如 Stable Diffusion、IP-Adapter)容易出现人脸不准确,像“复制粘贴”一样的结果,缺乏细节和自然感。
和文字描述不一致:即使生成了图像,也可能与输入的文本描述不符合,比如描述“穿金色裙子的女孩”,图像可能穿成了白色婚纱。
图像质量和审美差:很多方法生成的图像存在模糊、面部扭曲、背景错误、手指畸形等问题,缺乏美感和真实感。
缺乏灵活性和可扩展性:早期方法大多基于 U-Net 架构,限制了生成能力,缺乏对新模型(如 DiTs)的适配性,也难以与控制插件(如 ControlNet、LoRA)配合使用。
它怎么解决的? 它用了三个高招: 1.
用新的“Diffusion Transformer”模型(像FLUX)来提升生成质量;
发明了一个“身份注入器”InfuseNet,把人脸信息通过“旁路”加入主模型,避免干扰图像生成;
先用真实人脸数据做基础训练,再用自制的高质量图像做精细微调。
效果如何?
图像更像真人、更符合描述、也更漂亮。
用户测试中大多数人都更喜欢它生成的图。
能用在哪? 可以用于头像生成、AI写真、虚拟人建模、换装换背景换风格等各种定制场景。
🚀InfiniteYou 的主要功能
🛠️ 技术细节详解
🌐 核心架构:InfU(InfiniteYou Framework)
基座模型:FLUX(DiT)
身份注入模块:InfuseNet
类似 ControlNet,但专门为身份特征设计
使用残差连接(residual connection)将身份特征“注入”模型
不修改注意力层,避免 IPA 带来的文本混淆和画质下降问题
🧠 多阶段训练策略(Multi-stage Training)
引入的采用合成单人多样本 (SPMS) 数据和监督微调 (SFT) 的多阶段训练策略。
🧩 插拔式设计(Plug-and-Play)
兼容模块包括:
✅ FLUX.1-dev / FLUX.1-schnell(快推理版本)
✅ ControlNet(姿势/边缘控制)
✅ LoRA(快速注入风格或新能力)
✅ IP-Adapter(用于风格迁移、参考图像)
📊 性能对比(与 SOTA 方法)
InfiniteYou 的结果在身份保持、文本控制、美观程度上全面优于现有方法
避免了 PuLID-FLUX 中出现的“脸贴图感”、手部变形等问题
🌈 应用场景
项目地址:https://bytedance.github.io/InfiniteYou/
GitHub:https://github.com/bytedance/InfiniteYou
技术报告:https://arxiv.org/pdf/2503.16418
模型下载:https://huggingface.co/ByteDance/InfiniteYou
在线体验:https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX