📰 正文

PhotoDoodle 是 新加坡国立大学 Show Lab 与 Tiamat AI 合作开发的 AI 图像编辑工具,旨在通过 少样本数据(Few-Shot Learning)学习 进行艺术风格迁和图像编辑。

它可以通过 训练 AI,让 AI 学会某种艺术风格,并将其应用到新的图像上。

相比于传统的 AI 图像风格迁移方法,PhotoDoodle 更加精准:

✅ 仅修改特定区域,不影响背景(无损编辑) ✅ 无需大规模数据训练,仅靠少量示例即可学习风格 ✅ 指令驱动,允许用户通过文本描述即可进行图像编辑需求。 ✅ 支持多种艺术风格(如 3D 光效、手绘轮廓、流动画风、卡通风格等) ✅ 使用 LoRA 技术,让 AI 只学习风格,而不改变结构,保持图像的一致性。 ✅ 基于 Diffusers Pipeline,可轻松与 Hugging Face 生态系统集成。

image

PhotoDoodle 的目标:让 AI 能像人类艺术家一样 学习特定绘画风格,并进行创意修改。


🔹 PhotoDoodle 解决了什么问题?

1️⃣ 传统 AI 图像编辑的缺陷

❌ 需要大量训练数据:

传统 AI 图像编辑通常需要 成千上万张图片 进行训练。

但艺术家绘画风格的数据通常有限,难以满足大规模训练需求。

❌ 无法精准局部编辑:

现有 AI 通常会改变整个图片的风格,难以只修改特定区域。

例如:只给角色 添加翅膀,而不影响背景。

❌ 容易导致风格不稳定:

很多 AI 风格迁移模型会导致 颜色偏差、细节丢失、背景扭曲。

image

主要功能

PhotoDoodle 的核心功能可归纳为 3 个方面:

(1) 个性化艺术编辑

通过 EditLoRA,PhotoDoodle 可以 自动学习 图像修改的方式,并应用到 新图像 上。

适用于:

卡通化装饰(如添加卡通怪兽、星星、手绘线条)

局部风格化(如添加流动色块、发光轮廓、3D 效果)

个性化内容创作(如用户提供文本指令:“在建筑物上加上绿色怪兽”)

image

image

(2) 无缝背景融合

位置编码复用(PE Cloning):确保编辑区域和背景的透视、纹理、色彩一致,不会出现背景破坏、边缘模糊等问题。

image

(3) 指令驱动的自动化编辑

支持文本指令,用户可以直接描述想要的效果,例如:

“给女孩加上星星特效”

“在天空中添加手绘云朵”

“让猫的耳朵变成粉色”

不依赖手动掩码,无需用户提供精确的涂鸦区域,模型可以自动识别需要修改的部分。

image

image

(4) 预训练风格模型

PhotoDoodle 提供了多个预训练模型,用户可以直接使用:

image

技术方法

体系架构

PhotoDoodle 由 两个核心阶段 组成: 1.

OmniEditor 预训练

在大规模 3.5M 数据集上训练,学习通用图像编辑能力。

采用 高秩 LoRA(LoRA Rank=256),增强模型的图像编辑泛化能力。

EditLoRA 低秩微调

在 30-50 张风格示例数据 上进行微调,学习个性化艺术风格。

采用 低秩 LoRA(LoRA Rank=128),减少计算开销,快速适应不同风格。

关键创新 1.

位置编码复用(PE Cloning)

通过共享编辑前后的空间编码,确保涂鸦元素与原图像完全对齐,避免边缘模糊和透视错误。

无噪声条件(Noise-Free Conditioning)

在扩散模型生成过程中,保留背景的高频信息,确保编辑过程中不损坏背景细节。

EditLoRA:小数据风格学习

通过 LoRA(低秩自适应) 技术,仅需 30-50 对示例图片,即可学习艺术家的风格,并在新图像上应用。

测试结果:

image

image

image

GitHub:https://github.com/showlab/PhotoDoodle

论文:https://arxiv.org/pdf/2502.14397

在线体验:https://huggingface.co/spaces/ameerazam08/PhotoDoodle-Image-Edit-GPU


来源:PhotoDoodle :基于少样本学习的 AI 图像编辑工具 仅 30-50 张示例图片可让AI学会任何艺术风格并进行图像编辑