📰 正文

SVFR(稳定视频面部修复)是一种专门用来修复视频中人脸的技术,可以让模糊、损坏或者颜色不对的视频人脸变得清晰、自然。它不仅能修复人脸的细节,还能让整个视频看起来连贯一致,不会有卡顿或奇怪的变化。

SVFR提供了一个统一框架,可以同时完成视频盲修复、面部修补和面部着色任务,无需为每个任务单独训练模型。

SVFR 包括以下三个子任务: 1.

视频盲面部修复(BFR): 提升低质量视频中的面部清晰度和分辨率。

面部修补(Inpainting): 填补视频中丢失或被遮挡的面部区域。

面部着色(Colorization): 为灰度或退化的面部视频恢复自然颜色。


SVFR 解决了哪些问题?

模糊人脸变清晰:

对低清晰度的视频,SVFR 可以让人脸细节更加清晰,比如让模糊的五官重新清楚可见。

填补缺失的地方:

如果视频中人脸有遮挡(比如被手、眼镜挡住)或者有损坏,SVFR 可以把这些区域修复好,看起来像原来一样。

还原真实的颜色:

对于黑白视频或者颜色不自然的人脸,SVFR 能够重新上色,让人脸颜色恢复真实感。

让修复更稳定:

修复过程中,保证视频每一帧的变化自然,不会出现一会儿清楚、一会儿模糊的情况。


SVFR 的主要功能

一键搞定三种修复:

它同时能修复清晰度、填补缺失部分,还原颜色,不需要单独用不同工具去处理。

修复效果更好:

修复后的视频人脸不仅细节多,颜色准,还能保持面部结构(比如不会让鼻子变形或眼睛大小不同)。

视频连贯自然:

修复后的整段视频看起来流畅一致,不会有跳动或者闪烁的问题。

视频盲面部修复(BFR)

面部修补(Inpainting)

面部着色(Colorization)


SVFR 的实际用处

视频聊天更清晰:

在网速不好的情况下,也能让视频通话中的人脸看起来清晰自然。

修复老电影:

给历史电影或者老照片中的人脸增添色彩和细节,让画质变得像新的一样。

监控录像:

提高模糊监控视频中人脸的清晰度,更容易识别。

家庭视频修复:

修复老旧的家庭录像,比如结婚录像、旅行视频,让它们看起来像刚拍的一样。

方法与技术创新

SVFR 的技术创新点包括: 1.

统一处理多种修复任务,提高效率。

引入时间一致性优化,保证视频流畅自然。

利用人脸先验知识,确保面部结构真实。

通过共享信息,让不同修复任务相互促进。

使用扩散模型的生成能力,实现高保真修复。


  1. 统一的修复框架

核心思想: SVFR 把“清晰度修复”、“缺损修补”和“颜色还原”这三种任务合成到一个框架里,不需要每个任务分别训练模型。

技术创新: 使用任务嵌入技术,模型可以识别出当前需要做哪种修复(比如是清晰度修复还是着色),并有针对性地优化。

好处:

修复过程更高效。

任务之间能互相帮助,比如颜色还原的信息可以帮助清晰度修复。

image


  1. 时间一致性保障

核心思想: 视频中的每一帧人脸都要看起来一致,不能一会儿变清晰一会儿模糊,也不能出现颜色闪烁或面部细节变化。

技术创新: 引入自参考优化(Self-referred Refinement),让模型在生成每一帧时参考前面生成的帧,确保整体效果连贯流畅。

好处:

解决了视频修复中常见的“跳帧”或“闪烁”问题。

即使是长视频,也能保持稳定的修复效果。


  1. 面部先验学习

核心思想: 人脸有固定的结构,比如眼睛、鼻子和嘴巴的位置关系。如果不保证这一点,修复可能会导致面部变形。

技术创新: 使用人脸关键点(landmarks)作为指导,告诉模型人脸的基本轮廓和结构。

好处:

修复出来的面部更自然。

即使在复杂场景(比如遮挡、侧脸视角),也能保持面部结构的准确性。


  1. 多任务学习

核心思想: 视频修复的不同任务(清晰度、修补、着色)本质上有很多相似点,模型可以通过共享信息来提升整体效果。

技术创新: 使用统一潜在正则化(Unified Latent Regularization, ULR),让模型在处理不同任务时共享特征信息。

好处:

提升模型在不同任务中的表现。

增强修复效果,比如让颜色还原的结果更加贴近真实的肤色。


  1. 基于扩散模型的强大生成能力

核心思想: 使用先进的扩散模型(Stable Video Diffusion, SVD)作为基础,它能在处理复杂视频数据时生成高质量的结果。

技术创新: 引入时间卷积层和时间注意力机制,让扩散模型同时理解“每一帧的细节”和“多帧之间的关联”。

好处:

修复效果细节更丰富。

能应对复杂的视频变化,比如快速运动或光线变化。

image


实验结果

实验结果证明了它的强大性能,在修复清晰度、填补缺损、还原颜色以及保持视频一致性方面均超越了当前的先进方法。


  1. 数据集与评估标准

训练数据集: 使用了高质量的数据集(如 VoxCeleb2、CelebV-Text 和 VFHQ),总共包含 20,000 个视频片段。

测试数据集: 选择了 VFHQ 测试集(50 个视频)进行验证。

评估指标:

PSNR 和 SSIM: 用于衡量视频帧的清晰度和恢复准确性。

LPIPS: 测试视频的感知质量,分数越低,视觉效果越好。

IDS: 测量修复后人脸的身份一致性。

VIDD 和 FVD: 测试视频的时间一致性和整体质量,分数越低越好。


  1. 与当前方法的对比

定量对比

表格显示 SVFR 在所有任务(清晰度修复、面部修补和着色)上的表现均优于其他方法:

PSNR 和 SSIM 更高: 说明帧级别的修复更准确。

LPIPS 和 FVD 更低: 表明修复效果更自然,时间一致性更好。

IDS 更高: 确保人脸的身份特征一致性,避免人脸失真。

例如:

在清晰度修复任务中,SVFR 的 PSNR 达到 29.56,高于其他方法(如 GPEN 的 26.23)。

在时间一致性上,SVFR 的 FVD 分数显著低于对比方法,表明生成的视频更连贯。

定性对比

通过对比图可以看出:

其他方法容易出现帧间不一致,比如面部特征跳动、颜色变化或细节丢失。

SVFR 在处理遮挡(如眼镜、麦克风)或复杂运动(如侧脸、表情变化)时效果更稳定,人脸修复更准确。


  1. 消融实验

为了验证每个模块的作用,进行了多次实验,分析不同技术组件的贡献: 1.

多任务学习(联合训练 vs 单任务训练)

联合训练显著提升了所有任务的表现,因为不同任务之间共享特征信息,互相促进。

统一潜在正则化(ULR)的作用

添加 ULR 后,模型在多任务间表现更一致,修复的细节更清晰,时间一致性更好。

面部先验学习的贡献

加入人脸关键点作为先验信息后,修复的面部结构更加自然,尤其在处理复杂场景(如遮挡、侧脸)时表现突出。

自参考优化(SRR)的效果

有 SRR 的模型在长视频中表现更稳定,解决了颜色漂移和帧间不一致的问题。


  1. 修复效果总结

清晰度修复: 视频帧更锐利,细节更丰富。

面部修补: 缺失区域修复更自然,连贯性更好。

着色任务: 颜色过渡平滑,避免了色彩突变。

时间一致性: 视频帧无跳动或闪烁,整体流畅稳定。


项目地址:https://wangzhiyaoo.github.io/SVFR/

GitHub:https://github.com/wangzhiyaoo/SVFR

论文:https://arxiv.org/pdf/2501.01235


来源:SVFR:视频面部修复工具 可同时完成视频修复、面部修补和面部着色任务