📰 正文

Goku 是一种 流式(Flow-Based)视频生成基础模型(Video Generative Foundation Model),由 香港大学(HKU)和字节跳动(ByteDance) 共同开发。

它的核心功能是通过 文本输入(Text)转换为高质量视频(Video),适用于电影、广告、动画、艺术创作等多个领域。

  • 支持文本到视频(T2V):可生成 20 秒以上 流畅、连贯的视频。

  • 支持多种风格:写实、3D 动画、剪纸、赛博朋克等。

-广告优化版(Goku+):可直接生成真人广告、产品展示、人物交互的数字人视频。

  • 真实人物 & 手部优化:面部表情自然,手势精准。

  • 电影级动态镜头:支持慢动作、特写、追踪拍摄等。

  • 高分辨率 & 智能光影:画质清晰,色彩自然,光影真实。

Goku 采用先进的 流模型架构(Flow-Based Model),与传统的视频生成模型相比,它能够生成更 稳定、流畅、长时序的视频,并能 精准控制 视频中的人物、物体、环境等细节。

主要功能

  1. 文本到视频(Text-to-Video, T2V)

只需输入 一段文字描述,Goku 就能自动生成相应的视频。

适用于 电影制作、广告宣传、游戏动画、教育演示 等场景。

示例:

“一个时尚女性走在霓虹灯闪烁的东京街头” → Goku 生成符合描述的视频。

“一只维多利亚冠鸽展翅,蓝色羽毛在阳光下闪耀” → Goku 生成高清写实风格的视频。

  1. 多风格视频生成

Goku 不只是单一的写实视频,它还能 生成不同风格的视频,满足不同的创意需求:

📷 写实风格:适用于广告、影视,例如高清晰度的人物、城市、自然风光等。

🎭 3D 动画:类似于皮克斯、迪士尼的动画风格,适合游戏和电影动画。

🖼 剪纸风格(Papercraft):像手工剪纸动画一样,适用于儿童故事和艺术短片。

🎨 赛博朋克、复古电影风格:可以制作电影般的氛围,如复古科幻、赛博朋克、慢动作等。

📌 示例:

  1. Goku+(广告优化版)

Goku+ 是 Goku 的增强版,专门针对 广告视频 进行优化:

生成真人广告视频(营销头像、直播推流)。

自动创建产品视频(例如,把静态产品图片转换为视频)。

让人物与产品交互(如展示手表、服装、化妆品)。

  1. 长时序视频生成

传统 AI 视频生成:很多 AI 视频只能生成 几秒钟的短片,而且画面可能会有“抖动”或“失真”。

Goku:可以生成 20 秒以上 的稳定视频,人物的动作流畅,画面细节更自然。

  1. 真实人物和手部动作优化

很多 AI 生成的视频都会有 手部扭曲、面部表情呆滞 的问题,但 Goku 解决了这些问题:

生成的人物面部表情丰富,嘴巴和眼睛的变化很自然。

手部动作真实,不会出现 AI 经常出现的“手指错位”问题。

Goku 生成的真人视频能保持:

表情真实生动

手部动作自然

肢体协调

适用于 主播、虚拟偶像、教育视频等场景。

  1. 动态镜头控制

Goku 能生成带有电影级镜头语言的视频,如:

慢动作

跟踪拍摄

长镜头

航拍

特写

  1. AI 电影制作

Goku 可帮助电影制作人快速生成视频 概念片段、预告片、视觉效果(VFX) 等,提高影视制作效率。

Goku 的技术创新与技术方法


image

🔬 1. 技术创新

Goku 采用 流式(Flow-Based)视频生成模型,在视频质量、时序一致性、长视频生成等方面做出了突破,解决了传统 AI 生成视频时出现的“画面闪烁”、“帧与帧不一致”等问题。

(1)流式架构(Flow-Based Model)

传统方法的问题:

许多 AI 视频生成技术使用 扩散模型(Diffusion Model) 或 GAN(生成对抗网络),但这些方法容易导致视频帧之间不稳定,画面容易抖动或缺乏一致性。

Goku 的创新:

采用 流式架构(Flow-Based Model),确保每一帧视频都可以连续生成,不会出现视频抖动或丢帧问题。

能够生成 20 秒以上的稳定长视频(相比之下,许多传统 AI 视频模型只能生成 2~5 秒短片)。


(2)视频时序一致性(Temporal Consistency)

解决视频生成中的“跳帧”问题:

传统 AI 生成的视频经常出现人物或背景在不同帧之间变化过大,导致“闪烁感”。

Goku 通过 时间一致性约束(Temporal Consistency Constraint),确保前后帧的内容协调,不会出现突然变形或失真的情况。


(3)视频渲染的高分辨率 & 细节优化

Goku 采用高分辨率优化策略,使生成的视频更加高清,细节更丰富。

例如:

人物皮肤、衣服的褶皱、头发细节更加清晰。

环境渲染更自然(如光影、倒影、质感等更真实)。

色彩过渡更平滑,避免 AI 视频中常见的色块、模糊问题。


(4)长时序稳定性(Long Video Stability)

传统 AI 视频模型很难生成 超过 10 秒的流畅视频,因为 AI 需要记住前后帧的内容,但传统方法的记忆能力有限。

Goku 突破了 20 秒以上的稳定视频生成,并保持 风格、画面、镜头运动一致,适用于电影、广告等长视频应用场景。


(5)真实人物 & 真实手部优化

AI 生成的人物常出现 面部僵硬、表情不自然、手指变形 等问题。

Goku 通过 高精度人物建模 + 人体运动模拟,提升以下部分的质量:

面部表情细节:AI 能识别微笑、皱眉、眨眼等微表情,使视频更具真实感。

手部动作稳定:避免 AI 生成的“畸形手”问题,确保手势自然流畅。


🛠 2. 技术方法

Goku 的核心技术架构由 三大核心模块 组成: 1.

文本理解(Text Encoding)

视频生成(Video Synthesis)

后处理优化(Post-Processing Optimization)


📌(1)文本理解:多模态大模型(Multimodal Large Model)

Goku 采用 多模态 AI 技术,可以理解 文本描述,并转换成视频内容。

主要使用 Transformer + 扩散模型(Diffusion Model),以确保 AI 能精准理解文字,并生成相应的视频画面。

📌 示例:

输入文本:「一个身穿红色外套的男子,在夜晚的巴黎街头行走,街灯投下温暖的光影。」

AI 解析步骤: 1.

识别 “男子” → 生成一个符合描述的男性角色。

识别 “红色外套” → 让 AI 在视频中给人物穿上红色外套。

识别 “夜晚” → 生成夜晚的光影效果,增强氛围感。


📌(2)视频生成:流式生成模型(Flow-Based Video Generation)

Goku 的核心视频生成采用 流式建模(Flow-Based Model),结合 扩散模型(Diffusion Model) 和 神经渲染(Neural Rendering),确保视频流畅且稳定。

流式模型 让 Goku 能够生成 逐帧稳定的画面,避免画面“跳动”问题。

神经渲染(Neural Rendering) 提升光影效果,使画面更真实。

📌 示例:

生成一个「雪地里的猛犸象」:

传统 AI 可能会出现“象的毛发在不同帧变换”或者“场景突然变黑”。

Goku 通过流式建模,确保猛犸象的每一帧都连贯,雪地的颜色和光影保持一致。


📌(3)后处理优化(Post-Processing Optimization)

Goku 还采用了多种优化技术,确保视频输出质量:

帧间优化(Frame Consistency Enhancement):解决“帧抖动”问题,让视频看起来更稳定。

超分辨率(Super-Resolution):提高视频分辨率,避免模糊。

动态光影调整(Dynamic Lighting Correction):确保视频光照效果自然,提升真实感。

📌 示例:

生成一段「城市夜景」视频:

AI 可能会出现 不同帧之间的光线颜色变化不一致。

Goku 采用 动态光影调整,使街灯的光影变化符合物理规律,避免突兀变化。

GitHub:https://saiyan-world.github.io/goku/

论文:https://arxiv.org/pdf/2502.04896

GitHub:https://github.com/Saiyan-World/goku


来源:字节跳动发布新的视频生成基础模型Goku 可直接生成数字人