字节跳动发布新的视频生成基础模型Goku 可直接生成数字人

📰 正文

Goku 是一种流式（Flow-Based）视频生成基础模型（Video Generative Foundation Model），由香港大学（HKU）和字节跳动（ByteDance）共同开发。

它的核心功能是通过文本输入（Text）转换为高质量视频（Video），适用于电影、广告、动画、艺术创作等多个领域。

支持文本到视频（T2V）：可生成 20 秒以上流畅、连贯的视频。
支持多种风格：写实、3D 动画、剪纸、赛博朋克等。

-广告优化版（Goku+）：可直接生成真人广告、产品展示、人物交互的数字人视频。

真实人物 & 手部优化：面部表情自然，手势精准。
电影级动态镜头：支持慢动作、特写、追踪拍摄等。
高分辨率 & 智能光影：画质清晰，色彩自然，光影真实。

Goku 采用先进的流模型架构（Flow-Based Model），与传统的视频生成模型相比，它能够生成更稳定、流畅、长时序的视频，并能精准控制视频中的人物、物体、环境等细节。

主要功能

文本到视频（Text-to-Video, T2V）

只需输入一段文字描述，Goku 就能自动生成相应的视频。

适用于电影制作、广告宣传、游戏动画、教育演示等场景。

示例：

“一个时尚女性走在霓虹灯闪烁的东京街头” → Goku 生成符合描述的视频。

“一只维多利亚冠鸽展翅，蓝色羽毛在阳光下闪耀” → Goku 生成高清写实风格的视频。

多风格视频生成

Goku 不只是单一的写实视频，它还能生成不同风格的视频，满足不同的创意需求：

📷 写实风格：适用于广告、影视，例如高清晰度的人物、城市、自然风光等。

🎭 3D 动画：类似于皮克斯、迪士尼的动画风格，适合游戏和电影动画。

🖼 剪纸风格（Papercraft）：像手工剪纸动画一样，适用于儿童故事和艺术短片。

🎨 赛博朋克、复古电影风格：可以制作电影般的氛围，如复古科幻、赛博朋克、慢动作等。

📌 示例：

Goku+（广告优化版）

Goku+ 是 Goku 的增强版，专门针对广告视频进行优化：

生成真人广告视频（营销头像、直播推流）。

自动创建产品视频（例如，把静态产品图片转换为视频）。

让人物与产品交互（如展示手表、服装、化妆品）。

长时序视频生成

传统 AI 视频生成：很多 AI 视频只能生成几秒钟的短片，而且画面可能会有“抖动”或“失真”。

Goku：可以生成 20 秒以上的稳定视频，人物的动作流畅，画面细节更自然。

真实人物和手部动作优化

很多 AI 生成的视频都会有手部扭曲、面部表情呆滞的问题，但 Goku 解决了这些问题：

生成的人物面部表情丰富，嘴巴和眼睛的变化很自然。

手部动作真实，不会出现 AI 经常出现的“手指错位”问题。

Goku 生成的真人视频能保持：

表情真实生动

手部动作自然

肢体协调

适用于主播、虚拟偶像、教育视频等场景。

动态镜头控制

Goku 能生成带有电影级镜头语言的视频，如：

慢动作

跟踪拍摄

长镜头

航拍

特写

AI 电影制作

Goku 可帮助电影制作人快速生成视频概念片段、预告片、视觉效果（VFX）等，提高影视制作效率。

Goku 的技术创新与技术方法

🔬 1. 技术创新

Goku 采用流式（Flow-Based）视频生成模型，在视频质量、时序一致性、长视频生成等方面做出了突破，解决了传统 AI 生成视频时出现的“画面闪烁”、“帧与帧不一致”等问题。

（1）流式架构（Flow-Based Model）

传统方法的问题：

许多 AI 视频生成技术使用扩散模型（Diffusion Model）或 GAN（生成对抗网络），但这些方法容易导致视频帧之间不稳定，画面容易抖动或缺乏一致性。

Goku 的创新：

采用流式架构（Flow-Based Model），确保每一帧视频都可以连续生成，不会出现视频抖动或丢帧问题。

能够生成 20 秒以上的稳定长视频（相比之下，许多传统 AI 视频模型只能生成 2~5 秒短片）。

（2）视频时序一致性（Temporal Consistency）

解决视频生成中的“跳帧”问题：

传统 AI 生成的视频经常出现人物或背景在不同帧之间变化过大，导致“闪烁感”。

Goku 通过时间一致性约束（Temporal Consistency Constraint），确保前后帧的内容协调，不会出现突然变形或失真的情况。

（3）视频渲染的高分辨率 & 细节优化

Goku 采用高分辨率优化策略，使生成的视频更加高清，细节更丰富。

例如：

人物皮肤、衣服的褶皱、头发细节更加清晰。

环境渲染更自然（如光影、倒影、质感等更真实）。

色彩过渡更平滑，避免 AI 视频中常见的色块、模糊问题。

（4）长时序稳定性（Long Video Stability）

传统 AI 视频模型很难生成超过 10 秒的流畅视频，因为 AI 需要记住前后帧的内容，但传统方法的记忆能力有限。

Goku 突破了 20 秒以上的稳定视频生成，并保持风格、画面、镜头运动一致，适用于电影、广告等长视频应用场景。

（5）真实人物 & 真实手部优化

AI 生成的人物常出现面部僵硬、表情不自然、手指变形等问题。

Goku 通过高精度人物建模 + 人体运动模拟，提升以下部分的质量：

面部表情细节：AI 能识别微笑、皱眉、眨眼等微表情，使视频更具真实感。

手部动作稳定：避免 AI 生成的“畸形手”问题，确保手势自然流畅。

🛠 2. 技术方法

Goku 的核心技术架构由三大核心模块组成： 1.

文本理解（Text Encoding）

视频生成（Video Synthesis）

后处理优化（Post-Processing Optimization）

📌（1）文本理解：多模态大模型（Multimodal Large Model）

Goku 采用多模态 AI 技术，可以理解文本描述，并转换成视频内容。

主要使用 Transformer + 扩散模型（Diffusion Model），以确保 AI 能精准理解文字，并生成相应的视频画面。

📌 示例：

输入文本：「一个身穿红色外套的男子，在夜晚的巴黎街头行走，街灯投下温暖的光影。」

AI 解析步骤： 1.

识别 “男子” → 生成一个符合描述的男性角色。

识别 “红色外套” → 让 AI 在视频中给人物穿上红色外套。

识别 “夜晚” → 生成夜晚的光影效果，增强氛围感。

📌（2）视频生成：流式生成模型（Flow-Based Video Generation）

Goku 的核心视频生成采用流式建模（Flow-Based Model），结合扩散模型（Diffusion Model）和神经渲染（Neural Rendering），确保视频流畅且稳定。

流式模型让 Goku 能够生成逐帧稳定的画面，避免画面“跳动”问题。

神经渲染（Neural Rendering）提升光影效果，使画面更真实。

📌 示例：

生成一个「雪地里的猛犸象」：

传统 AI 可能会出现“象的毛发在不同帧变换”或者“场景突然变黑”。

Goku 通过流式建模，确保猛犸象的每一帧都连贯，雪地的颜色和光影保持一致。

📌（3）后处理优化（Post-Processing Optimization）

Goku 还采用了多种优化技术，确保视频输出质量：

帧间优化（Frame Consistency Enhancement）：解决“帧抖动”问题，让视频看起来更稳定。

超分辨率（Super-Resolution）：提高视频分辨率，避免模糊。

动态光影调整（Dynamic Lighting Correction）：确保视频光照效果自然，提升真实感。

📌 示例：

生成一段「城市夜景」视频：

AI 可能会出现不同帧之间的光线颜色变化不一致。

Goku 采用动态光影调整，使街灯的光影变化符合物理规律，避免突兀变化。

GitHub：https://saiyan-world.github.io/goku/

论文：https://arxiv.org/pdf/2502.04896

GitHub：https://github.com/Saiyan-World/goku

来源：字节跳动发布新的视频生成基础模型Goku 可直接生成数字人

📰 正文#

📰 正文