📰 正文

DiffSynth-Studio 团队发布 Qwen-Image-i2L,可以做到:

“给它一张图,它就能自动生成一个 LoRA(可微调AI风格模块)。”

换句话说,你只需要一张图片(比如某个画风、人物风格、艺术作品),Qwen-Image-i2L 就能分析这张图的视觉特征,自动生成一个 LoRA 文件。

之后你可以把这个 LoRA 用在 Stable Diffusion、Qwen-Image 或其他模型中,让你的模型“学会”那张图的风格或特征。

它解决了什么问题?

传统方式:

要训练一个新的风格 LoRA(比如让模型画出“宫崎骏风格”), 通常需要几十张甚至上百张风格一致的图片, 还要配置训练参数、显存、代码环境,非常麻烦。

Qwen-Image-i2L 的方式:

你只要提供 一张图片,模型就能:

自动提取风格与内容特征;

生成一个小型、可直接使用的 LoRA;

这个 LoRA 可以让你的主模型立刻具备那种画风或特征。

✅ 一张图 → 一个风格化AI模块(LoRA)

模型的四种版本

Qwen-Image-i2L 提供了四种“模型风格”,针对不同用途:

image

🧩 组合建议:

通常先用 Coarse 提取结构,再叠加 Fine 提升细节,最后用 Bias 微调整体风格。

案例展示

image

image

image

image

模型技术架构

Qwen-Image-i2L 架构整合了三大视觉骨干模型:

image

三者融合后,Qwen-Image-i2L 能:

理解图片的“语义”(这是什么);

抽取“风格”(怎么画的);

自动生成一个对应的 LoRA 模块(能让其他模型学到相同风格)。

换句话说,它是一个“图像理解 → 模型风格提取 → LoRA 生成”的自动管线。

性能与局限性

✅ 优点:

只需一张图即可训练;

可完全离线使用(开源代码+本地推理);

模型规模可控(2B~7B范围内);

可与任何 Diffusion 模型结合。

⚠️ 当前不足:

风格泛化仍有限(仅一张图,易过拟合);

在细节复现和光影一致性上仍需人工调整;

官方说明:仍处“实验性”阶段,但完全开放以推动研究。

一句话总结

Qwen-Image-i2L 让 AI 第一次能从“一张图”中学会一种风格。 它是开源世界首个实现 “Image → LoRA” 的视觉生成系统, 标志着个性化、轻量化 AI 创作进入全自动时代。

模型:ModelScope: https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-i2L/summary

代码: https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/qwen_image/model_inference_low_vram/Qwen-Image-i2L.py


来源:Qwen-Image-i2L:可以“将任意一张图片转化为 LoRA 模型”