PhotoDoodle ：基于少样本学习的 AI 图像编辑工具 仅 30-50 张示例图片可让AI学会任何艺术风格并进行图像编辑

📰 正文

PhotoDoodle 是新加坡国立大学 Show Lab 与 Tiamat AI 合作开发的 AI 图像编辑工具，旨在通过少样本数据（Few-Shot Learning）学习进行艺术风格迁和图像编辑。

它可以通过训练 AI，让 AI 学会某种艺术风格，并将其应用到新的图像上。

相比于传统的 AI 图像风格迁移方法，PhotoDoodle 更加精准：

✅ 仅修改特定区域，不影响背景（无损编辑） ✅ 无需大规模数据训练，仅靠少量示例即可学习风格 ✅ 指令驱动，允许用户通过文本描述即可进行图像编辑需求。 ✅ 支持多种艺术风格（如 3D 光效、手绘轮廓、流动画风、卡通风格等） ✅ 使用 LoRA 技术，让 AI 只学习风格，而不改变结构，保持图像的一致性。 ✅ 基于 Diffusers Pipeline，可轻松与 Hugging Face 生态系统集成。

PhotoDoodle 的目标：让 AI 能像人类艺术家一样学习特定绘画风格，并进行创意修改。

🔹 PhotoDoodle 解决了什么问题？

1️⃣ 传统 AI 图像编辑的缺陷

❌ 需要大量训练数据：

传统 AI 图像编辑通常需要成千上万张图片进行训练。

但艺术家绘画风格的数据通常有限，难以满足大规模训练需求。

❌ 无法精准局部编辑：

现有 AI 通常会改变整个图片的风格，难以只修改特定区域。

例如：只给角色添加翅膀，而不影响背景。

❌ 容易导致风格不稳定：

很多 AI 风格迁移模型会导致颜色偏差、细节丢失、背景扭曲。

主要功能

PhotoDoodle 的核心功能可归纳为 3 个方面：

(1) 个性化艺术编辑

通过 EditLoRA，PhotoDoodle 可以自动学习图像修改的方式，并应用到新图像上。

适用于：

卡通化装饰（如添加卡通怪兽、星星、手绘线条）

局部风格化（如添加流动色块、发光轮廓、3D 效果）

个性化内容创作（如用户提供文本指令：“在建筑物上加上绿色怪兽”）

(2) 无缝背景融合

位置编码复用（PE Cloning）：确保编辑区域和背景的透视、纹理、色彩一致，不会出现背景破坏、边缘模糊等问题。

(3) 指令驱动的自动化编辑

支持文本指令，用户可以直接描述想要的效果，例如：

“给女孩加上星星特效”

“在天空中添加手绘云朵”

“让猫的耳朵变成粉色”

不依赖手动掩码，无需用户提供精确的涂鸦区域，模型可以自动识别需要修改的部分。

(4) 预训练风格模型

PhotoDoodle 提供了多个预训练模型，用户可以直接使用：

技术方法

体系架构

PhotoDoodle 由两个核心阶段组成： 1.

OmniEditor 预训练

在大规模 3.5M 数据集上训练，学习通用图像编辑能力。

采用高秩 LoRA（LoRA Rank=256），增强模型的图像编辑泛化能力。

EditLoRA 低秩微调

在 30-50 张风格示例数据上进行微调，学习个性化艺术风格。

采用低秩 LoRA（LoRA Rank=128），减少计算开销，快速适应不同风格。

关键创新 1.

位置编码复用（PE Cloning）

通过共享编辑前后的空间编码，确保涂鸦元素与原图像完全对齐，避免边缘模糊和透视错误。

无噪声条件（Noise-Free Conditioning）

在扩散模型生成过程中，保留背景的高频信息，确保编辑过程中不损坏背景细节。

EditLoRA：小数据风格学习

通过 LoRA（低秩自适应）技术，仅需 30-50 对示例图片，即可学习艺术家的风格，并在新图像上应用。

测试结果：

GitHub：https://github.com/showlab/PhotoDoodle

论文：https://arxiv.org/pdf/2502.14397

在线体验：https://huggingface.co/spaces/ameerazam08/PhotoDoodle-Image-Edit-GPU

来源：PhotoDoodle ：基于少样本学习的 AI 图像编辑工具仅 30-50 张示例图片可让AI学会任何艺术风格并进行图像编辑

📰 正文#

📰 正文