📰 正文

HunyuanCustom 是腾讯混元团队开发的多模态定制视频生成系统,可通过文字、图片、音频或视频输入,生成具备特定人物、动作、语境和背景的视频内容。

其突出优势是:

强身份保持能力:人物在全片中形象不变

高度可控性:支持细粒度定制,如谁说话、在什么场景、做什么动作

它解决了过去视频生成中几个非常关键但难以突破的问题:

如何让同一个人出现在多帧视频中看起来是“同一个人”?(身份一致性)

如何通过自然语言、语音等模态进行精准控制?(多模态输入)

如何让 AI 视频具备内容逻辑、动作自然、表达真实?(可控生成)

该技术基于混元视频大模型(Hunyuan Video),是面向个性化视频创作的生成式 AI 工具链核心部件。

不仅能“看图说话”,还能“看图演戏”、“听声演讲”、“看视频换人”,适用于短视频创作、虚拟人、营销广告、教育娱乐等众多场景,在技术层面上具备领先的“身份保持”、“多模态融合”和“语义控制”能力。

具体能力

HunyuanCustom 实现了以下4种任务:

文本驱动视频生成:与传统text-to-video相似;

图像驱动个性化视频生成:基于人物/物体图像+文本,生成符合描述的视频;

音频驱动个性化视频生成:输入音频+身份图像+文本,生成同步说话/表演视频;

视频驱动个性化视频生成:输入背景视频+图像,替换或插入主体,实现视频编辑。

你给它一张图(比如你自己的头像)、一句描述(比如“她在雨中撑伞散步”)或一段语音,它就能生成一段看起来自然、逼真、符合要求的视频。

你可以不拍摄、不剪辑,只需描述,它就能为你“拍出视频”。

  1. 图像驱动定制视频(Image-driven)

只需一张人物图 + 一段文字描述

系统生成对应角色、符合描述的高质量短视频

  1. 音频驱动定制视频(Audio-driven)

加入语音,角色即可“说话”

同步嘴型与表情,保留语气情绪

可搭配虚拟主播、商品讲解等

  1. 视频驱动定制视频(Video-driven)

输入原始视频 + 目标角色图像

替换原视频人物,保留动作、环境

典型应用如“数字分身出演”与“换脸换角”

  1. 多角色控制(Multi-subject)

多张图像指定多个角色

每个角色有自己描述,互不干扰地参与视频生成

🔧 技术细节亮点详解

引入三大关键模块:

Text-Image融合模块:基于LLaVA实现图文理解;

Image ID增强模块:通过时序拼接强化身份特征;

模态特定注入机制:分别为音频(AudioNet)和视频设计专属注入模块。

image

  1. LLaVA-based 图文交互模块(Text-Image Fusion)

作用:实现图像与文本的融合理解,使模型不仅能理解“长得像谁”,还能理解“在干什么”。

机制:

使用LLaVA多模态大模型,输入文本时嵌入 token;

提供两种模板方式:

图像嵌入式(Image-Embedded):例如 “A is playing guitar”;

图像追加式(Image-Appended):例如 “A man is playing guitar. The man looks like ";

后插入 token,防止图像特征覆盖文本含义;

图像表示使用 24x24 的LLaVA特征向量。


  1. 身份增强模块(Identity Enhancement)

目标:强化视频中人物/物体的“身份一致性”,防止生成过程中出现脸部漂移、人物形变等问题。

机制:

将图像的latent向量作为 第 -1 帧 插入视频latent序列;

使用 3D-RoPE时间编码 将图像特征对齐到视频时序中;

通过视频模型的时间建模能力,使得图像特征随时间传播,提高一致性;

避免“贴图复制”,引入空间位移(spatial shift)机制,增强泛化。


  1. 多主体支持(Multi-subject Customization)

作用:允许在一个视频中出现多个角色(人或物),并为每个角色定制动作与外观。

机制:

为每个输入图像设计独立模板并提取latent;

不同主体的latent被赋予 不同的时间索引(-1, -2, …, -m);

使用3D-RoPE编码区分多个身份,避免混淆。


  1. 音频驱动模块(AudioNet)

功能:让视频中的人物根据音频进行动作,如张嘴说话、唱歌、演奏等。

核心技术:

提出 身份解耦的AudioNet,避免音频信息干扰身份识别;

采用**空间交叉注意力(spatial cross-attention)**注入方式(而非时序),逐帧对齐;

音频特征维度:将音频frame特征f’ × 4 × c重新排列成(f+1) × 16 × c,匹配视频latent。


  1. 视频驱动注入模块(Video Conditioning)

功能:支持将一个视频中的对象替换为另一对象(如换脸、换物体、虚拟拍片)。

关键模块:

视频压缩:使用预训练的3D-VAE对输入视频进行latent编码;

特征对齐:通过Patchify网络进行清晰视频特征与噪声latent对齐;

高效融合:采用加法融合而非拼接,避免Attention计算量暴涨;

保证视频中的新角色与旧背景自然融合,无边缘伪影。


  1. 多模态数据构建与预处理管线

涵盖以下处理技术:

PySceneDetect 切分镜头;

TextBPN++ 剔除字幕/水印;

YOLOv11 + InsightFace 提取人脸/身体框;

GroundingSAM2 + QwenVL 提取非人类目标;

Whisper + LatentSync 用于音视频对齐;

Mask增强:使用膨胀、边界模糊等处理防止过拟合。


  1. 训练机制:Flow Matching + 全模型微调

训练方式:

采用 Flow Matching 框架,通过预测latent间“速度向量”训练生成路径;

使用 Logit-Normal 分布 采样时间权重;

同时微调 视频生成模型(HunyuanVideo)+ LLaVA模型,确保图文交互与生成质量。

📊 实验验证

基准对比:在ID一致性、文本对齐、主体相似性、时间一致性等方面全面优于SkyReels-A2、VACE、Pika、Vidu等开源和商业模型;

应用展示:

多主体互动;

虚拟人广告(人+产品视频);

虚拟试衣(Audio+Clothes驱动);

视频编辑替换;

GitHub:https://github.com/Tencent/HunyuanCustom

项目地址:https://hunyuancustom.github.io/

论文:https://arxiv.org/pdf/2505.04512

在线体验:https://hunyuan.tencent.com/modelSquare/home/play?modelId=192


来源:HunyuanCustom: 腾讯混元多模态定制视频生成系统 不仅能“看图说话”,还能“看图演戏”、“听声演讲”、“看视频换人”