📰 正文
PhotoDoodle 是 新加坡国立大学 Show Lab 与 Tiamat AI 合作开发的 AI 图像编辑工具,旨在通过 少样本数据(Few-Shot Learning)学习 进行艺术风格迁和图像编辑。
它可以通过 训练 AI,让 AI 学会某种艺术风格,并将其应用到新的图像上。
相比于传统的 AI 图像风格迁移方法,PhotoDoodle 更加精准:
✅ 仅修改特定区域,不影响背景(无损编辑) ✅ 无需大规模数据训练,仅靠少量示例即可学习风格 ✅ 指令驱动,允许用户通过文本描述即可进行图像编辑需求。 ✅ 支持多种艺术风格(如 3D 光效、手绘轮廓、流动画风、卡通风格等) ✅ 使用 LoRA 技术,让 AI 只学习风格,而不改变结构,保持图像的一致性。 ✅ 基于 Diffusers Pipeline,可轻松与 Hugging Face 生态系统集成。
PhotoDoodle 的目标:让 AI 能像人类艺术家一样 学习特定绘画风格,并进行创意修改。
🔹 PhotoDoodle 解决了什么问题?
1️⃣ 传统 AI 图像编辑的缺陷
❌ 需要大量训练数据:
传统 AI 图像编辑通常需要 成千上万张图片 进行训练。
但艺术家绘画风格的数据通常有限,难以满足大规模训练需求。
❌ 无法精准局部编辑:
现有 AI 通常会改变整个图片的风格,难以只修改特定区域。
例如:只给角色 添加翅膀,而不影响背景。
❌ 容易导致风格不稳定:
很多 AI 风格迁移模型会导致 颜色偏差、细节丢失、背景扭曲。
主要功能
PhotoDoodle 的核心功能可归纳为 3 个方面:
(1) 个性化艺术编辑
通过 EditLoRA,PhotoDoodle 可以 自动学习 图像修改的方式,并应用到 新图像 上。
适用于:
卡通化装饰(如添加卡通怪兽、星星、手绘线条)
局部风格化(如添加流动色块、发光轮廓、3D 效果)
个性化内容创作(如用户提供文本指令:“在建筑物上加上绿色怪兽”)
(2) 无缝背景融合
位置编码复用(PE Cloning):确保编辑区域和背景的透视、纹理、色彩一致,不会出现背景破坏、边缘模糊等问题。
(3) 指令驱动的自动化编辑
支持文本指令,用户可以直接描述想要的效果,例如:
“给女孩加上星星特效”
“在天空中添加手绘云朵”
“让猫的耳朵变成粉色”
不依赖手动掩码,无需用户提供精确的涂鸦区域,模型可以自动识别需要修改的部分。
(4) 预训练风格模型
PhotoDoodle 提供了多个预训练模型,用户可以直接使用:
技术方法
体系架构
PhotoDoodle 由 两个核心阶段 组成: 1.
OmniEditor 预训练
在大规模 3.5M 数据集上训练,学习通用图像编辑能力。
采用 高秩 LoRA(LoRA Rank=256),增强模型的图像编辑泛化能力。
EditLoRA 低秩微调
在 30-50 张风格示例数据 上进行微调,学习个性化艺术风格。
采用 低秩 LoRA(LoRA Rank=128),减少计算开销,快速适应不同风格。
关键创新 1.
位置编码复用(PE Cloning)
通过共享编辑前后的空间编码,确保涂鸦元素与原图像完全对齐,避免边缘模糊和透视错误。
无噪声条件(Noise-Free Conditioning)
在扩散模型生成过程中,保留背景的高频信息,确保编辑过程中不损坏背景细节。
EditLoRA:小数据风格学习
通过 LoRA(低秩自适应) 技术,仅需 30-50 对示例图片,即可学习艺术家的风格,并在新图像上应用。
测试结果:
GitHub:https://github.com/showlab/PhotoDoodle
论文:https://arxiv.org/pdf/2502.14397
在线体验:https://huggingface.co/spaces/ameerazam08/PhotoDoodle-Image-Edit-GPU
来源:PhotoDoodle :基于少样本学习的 AI 图像编辑工具 仅 30-50 张示例图片可让AI学会任何艺术风格并进行图像编辑