HunyuanCustom 是腾讯混元团队开发的多模态定制视频生成系统,可通过文字、图片、音频或视频输入,生成具备特定人物、动作、语境和背景的视频内容。

在线体验:https://hunyuan.tencent.com/modelSquare/home/play?modelId=192

其突出优势是:

  • 强身份保持能力:人物在全片中形象不变
  • 高度可控性:支持细粒度定制,如谁说话、在什么场景、做什么动作

它解决了过去视频生成中几个非常关键但难以突破的问题

  • 如何让同一个人出现在多帧视频中看起来是“同一个人”?(身份一致性)
  • 如何通过自然语言、语音等模态进行精准控制?(多模态输入)
  • 如何让 AI 视频具备内容逻辑、动作自然、表达真实?(可控生成)

该技术基于混元视频大模型(Hunyuan Video),是面向个性化视频创作的生成式 AI 工具链核心部件

不仅能“看图说话”,还能“看图演戏”、“听声演讲”、“看视频换人”,适用于短视频创作、虚拟人、营销广告、教育娱乐等众多场景,在技术层面上具备领先的“身份保持”、“多模态融合”和“语义控制”能力。

具体能力

HunyuanCustom 实现了以下4种任务:

  • 文本驱动视频生成:与传统text-to-video相似;
  • 图像驱动个性化视频生成:基于人物/物体图像+文本,生成符合描述的视频;
  • 音频驱动个性化视频生成:输入音频+身份图像+文本,生成同步说话/表演视频;
  • 视频驱动个性化视频生成:输入背景视频+图像,替换或插入主体,实现视频编辑。

你给它一张图(比如你自己的头像)、一句描述(比如“她在雨中撑伞散步”)或一段语音,它就能生成一段看起来自然、逼真、符合要求的视频。

你可以不拍摄、不剪辑,只需描述,它就能为你“拍出视频”。

1. 图像驱动定制视频(Image-driven)

  • 只需一张人物图 + 一段文字描述
  • 系统生成对应角色、符合描述的高质量短视频

2. 音频驱动定制视频(Audio-driven)

  • 加入语音,角色即可“说话”
  • 同步嘴型与表情,保留语气情绪
  • 可搭配虚拟主播、商品讲解等

3. 视频驱动定制视频(Video-driven)

  • 输入原始视频 + 目标角色图像
  • 替换原视频人物,保留动作、环境
  • 典型应用如“数字分身出演”与“换脸换角”

4. 多角色控制(Multi-subject)

  • 多张图像指定多个角色
  • 每个角色有自己描述,互不干扰地参与视频生成

🔧 技术细节亮点详解

引入三大关键模块

  • Text-Image融合模块:基于LLaVA实现图文理解;
  • Image ID增强模块:通过时序拼接强化身份特征;
  • 模态特定注入机制:分别为音频(AudioNet)和视频设计专属注入模块。

1. LLaVA-based 图文交互模块(Text-Image Fusion)

  • 作用:实现图像与文本的融合理解,使模型不仅能理解“长得像谁”,还能理解“在干什么”。
  • 机制
    • 使用LLaVA多模态大模型,输入文本时嵌入<image> token;
    • 提供两种模板方式:
      • 图像嵌入式(Image-Embedded):例如 “A <image> is playing guitar”;
      • 图像追加式(Image-Appended):例如 “A man is playing guitar. The man looks like <image>”;
    • 在<image>后插入 <SEP> token,防止图像特征覆盖文本含义;
    • 图像表示使用 24×24 的LLaVA特征向量

2. 身份增强模块(Identity Enhancement)

  • 目标:强化视频中人物/物体的“身份一致性”,防止生成过程中出现脸部漂移、人物形变等问题。
  • 机制
    • 将图像的latent向量作为 第 -1 帧 插入视频latent序列;
    • 使用 3D-RoPE时间编码 将图像特征对齐到视频时序中;
    • 通过视频模型的时间建模能力,使得图像特征随时间传播,提高一致性;
    • 避免“贴图复制”,引入空间位移(spatial shift)机制,增强泛化。

3. 多主体支持(Multi-subject Customization)

  • 作用:允许在一个视频中出现多个角色(人或物),并为每个角色定制动作与外观。
  • 机制
    • 为每个输入图像设计独立模板并提取latent;
    • 不同主体的latent被赋予 不同的时间索引(-1, -2, …, -m)
    • 使用3D-RoPE编码区分多个身份,避免混淆。

4. 音频驱动模块(AudioNet)

  • 功能:让视频中的人物根据音频进行动作,如张嘴说话、唱歌、演奏等
  • 核心技术
    • 提出 身份解耦的AudioNet,避免音频信息干扰身份识别;
    • 采用**空间交叉注意力(spatial cross-attention)**注入方式(而非时序),逐帧对齐;
    • 音频特征维度:将音频frame特征f’ × 4 × c重新排列成(f+1) × 16 × c,匹配视频latent。

5. 视频驱动注入模块(Video Conditioning)

  • 功能:支持将一个视频中的对象替换为另一对象(如换脸、换物体、虚拟拍片)。
  • 关键模块
    • 视频压缩:使用预训练的3D-VAE对输入视频进行latent编码;
    • 特征对齐:通过Patchify网络进行清晰视频特征与噪声latent对齐;
    • 高效融合:采用加法融合而非拼接,避免Attention计算量暴涨;
    • 保证视频中的新角色与旧背景自然融合,无边缘伪影。

6. 多模态数据构建与预处理管线

  • 涵盖以下处理技术
    • PySceneDetect 切分镜头;
    • TextBPN++ 剔除字幕/水印;
    • YOLOv11 + InsightFace 提取人脸/身体框;
    • GroundingSAM2 + QwenVL 提取非人类目标;
    • Whisper + LatentSync 用于音视频对齐;
    • Mask增强:使用膨胀、边界模糊等处理防止过拟合。

7. 训练机制:Flow Matching + 全模型微调

  • 训练方式
    • 采用 Flow Matching 框架,通过预测latent间“速度向量”训练生成路径;
    • 使用 Logit-Normal 分布 采样时间权重;
    • 同时微调 视频生成模型(HunyuanVideo)+ LLaVA模型,确保图文交互与生成质量。

📊 实验验证

  • 基准对比:在ID一致性、文本对齐、主体相似性、时间一致性等方面全面优于SkyReels-A2、VACE、Pika、Vidu等开源和商业模型;
  • 应用展示
    • 多主体互动;
    • 虚拟人广告(人+产品视频);
    • 虚拟试衣(Audio+Clothes驱动);
    • 视频编辑替换;