OmniSVG ：能把文字或图片转换成高质量 SVG 矢量图的 AI 模型

📰 正文

OmniSVG 是一个用于生成高质量、可扩展矢量图形（SVG）的统一框架，基于预训练的视觉-语言模型（Vision-Language Model, VLM），旨在解决传统 SVG 生成方法在结构复杂性、计算成本和多模态支持上的局限。该项目由复旦大学和 StepFun 团队开发

也就是它是一个能把文字或图片转换成高质量 SVG 矢量图的 AI 模型，既适合生成简单图标，也能做出复杂的动漫角色。

SVG 是一种常见的图像格式，优点是：

不管放大多少倍都不会模糊（无限缩放不失真）；

很容易修改（设计师友好）；

常用于图标、插画、卡通人物等。

OmniSVG 就像是一个“会画图的 AI 设计师”，你告诉它一段文字或给它一张图片，它就能“画”出一张高质量、可编辑的 SVG 图像。

支持生成插画级别的复杂图形，不仅仅是简单图标；

可应用于角色设计、动漫人物、装饰图案等更复杂视觉场景；

输出的 SVG 文件结构逻辑清晰、可编辑，方便设计师使用。

它有哪些功能和亮点？

文本到 SVG 生成（Text-to-SVG）

根据自然语言描述生成 SVG 图形。

示例：输入“一个蓝色五角星”可生成对应的矢量五角星，支持颜色、形状和复杂结构描述。

适用场景：快速生成图标、标志或简单插图。

图像到 SVG 生成（Image-to-SVG）

将普通图像（如 PNG、JPG）转化为可编辑的矢量 SVG。

特点：保留图像细节，支持多层次结构和颜色信息。

适用场景：将手绘草图或现有图像转换为矢量格式，便于编辑和缩放。

角色参考 SVG 生成（Character-Reference SVG）

基于参考图像或文本描述生成复杂的 SVG 角色，如动漫人物或卡通形象。

特点：能捕捉角色细节（如表情、服饰），生成多层次、色彩丰富的矢量图形。

适用场景：游戏设计、动画制作、个性化角色创作。

高质量与多样性

支持从单色简单图标到多色复杂插图的广泛复杂度范围。

生成的 SVG 具有分辨率无关性（可无限缩放不失真）和可编辑性（易于修改路径、颜色等）。

相比传统方法，生成的图形结构更紧凑、细节更生动。

高效生成

端到端生成速度快，适合实时应用，优于需要大量路径优化的方法（如 DiffVG）。

支持渐进式生成，逐步构建复杂图形，确保输出可控。

支持专业设计流程

输出的 SVG 是规范的、结构分层清楚的；

可直接在设计软件（如 Figma、Adobe Illustrator）中打开和编辑；

能无缝集成进图形设计、UI 设计、AIGC 平台等专业工作流。

多模态数据集支持（MMSVG-2M）

OmniSVG 使用了一个它们自建的大型数据集 MMSVG-2M，包含了 200 万个 SVG 图像+描述/图片对，主要分为：

图标类（Icon）：常见UI图标。

插画类（Illustration）：色彩丰富的卡通图。

角色类（Character）：动漫人物、游戏角色。

支持多模态训练和评估，推动 SVG 生成技术的研究和应用。

用了什么方法？

OmniSVG 的创新之处在于将预训练的视觉语言模型（ Qwen-VL）与自研的 SVG 编码器相结合，把复杂图形“翻译”成 AI 能理解的语言。

OmniSVG 采用了三大关键技术：

视觉语言模型（VLM）

OmniSVG 用了一个叫 Qwen-VL 的 AI 模型，这种模型擅长理解“图+文”组合的信息。它能看懂图片，也能读懂文字，还能把两者结合起来理解。

SVG Tokenizer（矢量图编码器）

SVG 图像其实是一连串“指令”（比如：画线、画圆、设置颜色），OmniSVG 会把这些变成 AI 可以理解的小单位（叫 token），方便它学习和生成新的 SVG 图。

📝 类比：就像学钢琴之前要学乐谱一样，OmniSVG 给 SVG 图设计了一种“专属乐谱”，AI 读懂了之后就能“谱写新乐章”。

多模态输入能力

它可以理解多种输入方式，支持：

文字生成 SVG（输入 “一只卡通狐狸”，输出相应图形）；

图片转 SVG（输入照片或图像，输出矢量图版本）；

角色风格参考生成（输入一个角色样图，再让它生成风格一致的新图）。

实验与表现

生成质量：OmniSVG 在生成复杂图形（如动漫角色）的视觉效果和细节保留上表现出色，优于传统方法（如 DiffVG、DeepSVG）。

多样性：支持从单色图标到彩色插图的广泛复杂度范围，生成的 SVG 结构清晰、层次分明。

效率：与需要大量路径优化的方法（如 LIVE，生成单个 SVG 需 10 分钟）相比，OmniSVG 的端到端生成速度更快，适合实时应用。

用户反馈：设计师和研究人员对 OmniSVG 的高质量输出表示认可，认为其重新定义了 SVG 生成的标准。

适合哪些人？

OmniSVG 的设计使其在以下领域具有广泛的应用潜力： 1.

图形设计：设计师可通过文本或图像快速生成可编辑的 SVG，加速创意流程。

网页开发：生成轻量级、高分辨率的矢量图形，优化网页加载速度和视觉效果。

游戏与动画：支持复杂角色和场景的 SVG 生成，适用于 2D 游戏或动画制作。

自动化工作流：与专业设计软件集成，简化从草图到矢量图的转换过程。

其生成的 SVG 具有分辨率无关性（Resolution Independence）和可编辑性（Editability），非常适合需要高质量视觉效果的场景。

Hugging Face：https://huggingface.co/OmniSVG

项目地址：https://omnisvg.github.io/

论文：https://arxiv.org/pdf/2504.06263

GitHub：https://github.com/OmniSVG/OmniSVG

来源：OmniSVG ：能把文字或图片转换成高质量 SVG 矢量图的 AI 模型

📰 正文#

📰 正文