📰 正文
项目背景
TransPixar 是一个创新的生成视频模型,专注于生成包括透明度通道(alpha 通道)的 RGBA 视频。相比传统的 RGB 视频,RGBA 视频能够实现更丰富的视觉效果(VFX),例如透明的烟雾、反射等,方便这些元素无缝地与场景融合。
该项目由香港科技大学(HKUST)与 Adobe Research 合作完成。
TransPixar 是什么?
TransPixar 的核心功能之一是生成带 透明背景 的视频。
这是通过 AI 技术生成视频 的新方法。传统的视频生成技术通常只能输出普通的彩色画面(RGB格式),而 TransPixar 在此基础上增加了 alpha 通道,这意味着它可以生成具有透明背景的视频(RGBA格式)。这类视频中的透明部分可以无缝叠加到其他背景上,比如:
一只松鼠在透明背景下摆动尾巴,可以直接放到任意背景中。
一团烟雾在透明背景中扩散,用于电影特效制作。
透明水杯中的冰块旋转,可以直接用于广告设计。
这些透明的效果(就像你看电影里的烟雾、火焰、玻璃等特效)在制作电影或者广告时非常重要。
它解决了什么问题?
普通的 AI 视频生成技术只能处理不透明的视频(例如直接生成一个完整的画面),无法生成透明的部分(比如你看得到背后东西的玻璃或烟雾)。而 TransPixar: 1.
加了“透明度”功能:生成的视频可以带透明部分,像电影中的玻璃、烟雾、或者水面。
不需要重新训练:它是在已经很厉害的 AI 视频生成模型上,直接扩展出了透明度功能。
怎么做到的?
它用了 DiT(扩散变换器) 的技术,通过特别设计的方法让 AI 学会同时生成视频画面和透明效果。而且:
用了特别的“微调”方式(LoRA技术),让模型只需少量训练就能生成高质量的透明视频。
改进了 AI 的注意力机制,确保生成的视频画面和透明效果一致,不会出现奇怪的地方。
有什么用?
影视和广告:省下做透明特效的人工工作量,比如爆炸的烟雾、水波等。
教育和互动内容:生成透明的动态效果,能更直观地演示科学原理或者产品功能。
设计和创意:让设计师用更少的时间做出更炫的透明效果视频。
技术创新点
核心技术架构:
使用 扩散变换器(Diffusion Transformer, DiT) 架构,在原有 RGB 模型基础上扩展,添加生成 alpha 通道的能力。
引入了专门的 alpha 通道 token,并通过 LoRA(Low-Rank Adaptation)微调,使模型能够同时生成 RGB 和 alpha 通道数据。
采用优化的注意力机制,改进了 RGB 和 alpha 通道的对齐性,同时避免有限训练数据对模型性能的负面影响。
关键改进:
新增的 alpha 通道 token 被重新初始化了位置嵌入,并添加了零初始化的域嵌入(domain embedding)来区分 RGB 和 alpha token。
使用分组注意力机制(Grouped Attention),保留了原有模型的 RGB 性能,同时加强了 RGB 对 alpha 的关注,避免文本直接与 alpha 通道关联导致的潜在风险。
生成方式:
文本到 RGBA 视频:生成诸如透明水杯中旋转的冰块、太空中的小行星带、快速摆动的松鼠尾巴、以及爆炸般扩散的尘土云等逼真的透明效果视频。
图像到 RGBA 视频:输入一张图像,模型可以生成带有透明度效果的动态视频。
项目地址:https://wileewang.github.io/TransPixar/
GitHub:https://github.com/wileewang/TransPixar
论文:https://wileewang.github.io/TransPixar/paper/paper.pdf
在线体验:https://huggingface.co/spaces/wileewang/TransPixar