HunyuanCustom： 腾讯混元多模态定制视频生成系统 不仅能“看图说话”，还能“看图演戏”、“听声演讲”、“看视频换人”

📰 正文

HunyuanCustom 是腾讯混元团队开发的多模态定制视频生成系统，可通过文字、图片、音频或视频输入，生成具备特定人物、动作、语境和背景的视频内容。

其突出优势是：

强身份保持能力：人物在全片中形象不变

高度可控性：支持细粒度定制，如谁说话、在什么场景、做什么动作

它解决了过去视频生成中几个非常关键但难以突破的问题：

如何让同一个人出现在多帧视频中看起来是“同一个人”？（身份一致性）

如何通过自然语言、语音等模态进行精准控制？（多模态输入）

如何让 AI 视频具备内容逻辑、动作自然、表达真实？（可控生成）

该技术基于混元视频大模型（Hunyuan Video），是面向个性化视频创作的生成式 AI 工具链核心部件。

不仅能“看图说话”，还能“看图演戏”、“听声演讲”、“看视频换人”，适用于短视频创作、虚拟人、营销广告、教育娱乐等众多场景，在技术层面上具备领先的“身份保持”、“多模态融合”和“语义控制”能力。

具体能力

HunyuanCustom 实现了以下4种任务：

文本驱动视频生成：与传统text-to-video相似；

图像驱动个性化视频生成：基于人物/物体图像+文本，生成符合描述的视频；

音频驱动个性化视频生成：输入音频+身份图像+文本，生成同步说话/表演视频；

视频驱动个性化视频生成：输入背景视频+图像，替换或插入主体，实现视频编辑。

你给它一张图（比如你自己的头像）、一句描述（比如“她在雨中撑伞散步”）或一段语音，它就能生成一段看起来自然、逼真、符合要求的视频。

你可以不拍摄、不剪辑，只需描述，它就能为你“拍出视频”。

图像驱动定制视频（Image-driven）

只需一张人物图 + 一段文字描述

系统生成对应角色、符合描述的高质量短视频

音频驱动定制视频（Audio-driven）

加入语音，角色即可“说话”

同步嘴型与表情，保留语气情绪

可搭配虚拟主播、商品讲解等

视频驱动定制视频（Video-driven）

输入原始视频 + 目标角色图像

替换原视频人物，保留动作、环境

典型应用如“数字分身出演”与“换脸换角”

多角色控制（Multi-subject）

多张图像指定多个角色

每个角色有自己描述，互不干扰地参与视频生成

🔧 技术细节亮点详解

引入三大关键模块：

Text-Image融合模块：基于LLaVA实现图文理解；

Image ID增强模块：通过时序拼接强化身份特征；

模态特定注入机制：分别为音频（AudioNet）和视频设计专属注入模块。

LLaVA-based 图文交互模块（Text-Image Fusion）

作用：实现图像与文本的融合理解，使模型不仅能理解“长得像谁”，还能理解“在干什么”。

机制：

使用LLaVA多模态大模型，输入文本时嵌入 token；

提供两种模板方式：

图像嵌入式（Image-Embedded）：例如 “A is playing guitar”；

图像追加式（Image-Appended）：例如 “A man is playing guitar. The man looks like "；

在后插入 token，防止图像特征覆盖文本含义；

图像表示使用 24x24 的LLaVA特征向量。

身份增强模块（Identity Enhancement）

目标：强化视频中人物/物体的“身份一致性”，防止生成过程中出现脸部漂移、人物形变等问题。

机制：

将图像的latent向量作为第 -1 帧插入视频latent序列；

使用 3D-RoPE时间编码将图像特征对齐到视频时序中；

通过视频模型的时间建模能力，使得图像特征随时间传播，提高一致性；

避免“贴图复制”，引入空间位移（spatial shift）机制，增强泛化。

多主体支持（Multi-subject Customization）

作用：允许在一个视频中出现多个角色（人或物），并为每个角色定制动作与外观。

机制：

为每个输入图像设计独立模板并提取latent；

不同主体的latent被赋予不同的时间索引（-1, -2, …, -m）；

使用3D-RoPE编码区分多个身份，避免混淆。

音频驱动模块（AudioNet）

功能：让视频中的人物根据音频进行动作，如张嘴说话、唱歌、演奏等。

核心技术：

提出身份解耦的AudioNet，避免音频信息干扰身份识别；

采用**空间交叉注意力（spatial cross-attention）**注入方式（而非时序），逐帧对齐；

音频特征维度：将音频frame特征f’ × 4 × c重新排列成(f+1) × 16 × c，匹配视频latent。

视频驱动注入模块（Video Conditioning）

功能：支持将一个视频中的对象替换为另一对象（如换脸、换物体、虚拟拍片）。

关键模块：

视频压缩：使用预训练的3D-VAE对输入视频进行latent编码；

特征对齐：通过Patchify网络进行清晰视频特征与噪声latent对齐；

高效融合：采用加法融合而非拼接，避免Attention计算量暴涨；

保证视频中的新角色与旧背景自然融合，无边缘伪影。

多模态数据构建与预处理管线

涵盖以下处理技术：

PySceneDetect 切分镜头；

TextBPN++ 剔除字幕/水印；

YOLOv11 + InsightFace 提取人脸/身体框；

GroundingSAM2 + QwenVL 提取非人类目标；

Whisper + LatentSync 用于音视频对齐；

Mask增强：使用膨胀、边界模糊等处理防止过拟合。

训练机制：Flow Matching + 全模型微调

训练方式：

采用 Flow Matching 框架，通过预测latent间“速度向量”训练生成路径；

使用 Logit-Normal 分布采样时间权重；

同时微调视频生成模型（HunyuanVideo）+ LLaVA模型，确保图文交互与生成质量。

📊 实验验证

基准对比：在ID一致性、文本对齐、主体相似性、时间一致性等方面全面优于SkyReels-A2、VACE、Pika、Vidu等开源和商业模型；

应用展示：

多主体互动；

虚拟人广告（人+产品视频）；

虚拟试衣（Audio+Clothes驱动）；

视频编辑替换；

GitHub：https://github.com/Tencent/HunyuanCustom

项目地址：https://hunyuancustom.github.io/

论文：https://arxiv.org/pdf/2505.04512

在线体验：https://hunyuan.tencent.com/modelSquare/home/play?modelId=192

来源：HunyuanCustom：腾讯混元多模态定制视频生成系统不仅能“看图说话”，还能“看图演戏”、“听声演讲”、“看视频换人”

📰 正文#

📰 正文