📰 正文
Goku 是一种 流式(Flow-Based)视频生成基础模型(Video Generative Foundation Model),由 香港大学(HKU)和字节跳动(ByteDance) 共同开发。
它的核心功能是通过 文本输入(Text)转换为高质量视频(Video),适用于电影、广告、动画、艺术创作等多个领域。
支持文本到视频(T2V):可生成 20 秒以上 流畅、连贯的视频。
支持多种风格:写实、3D 动画、剪纸、赛博朋克等。
-广告优化版(Goku+):可直接生成真人广告、产品展示、人物交互的数字人视频。
真实人物 & 手部优化:面部表情自然,手势精准。
电影级动态镜头:支持慢动作、特写、追踪拍摄等。
高分辨率 & 智能光影:画质清晰,色彩自然,光影真实。
Goku 采用先进的 流模型架构(Flow-Based Model),与传统的视频生成模型相比,它能够生成更 稳定、流畅、长时序的视频,并能 精准控制 视频中的人物、物体、环境等细节。
主要功能
- 文本到视频(Text-to-Video, T2V)
只需输入 一段文字描述,Goku 就能自动生成相应的视频。
适用于 电影制作、广告宣传、游戏动画、教育演示 等场景。
示例:
“一个时尚女性走在霓虹灯闪烁的东京街头” → Goku 生成符合描述的视频。
“一只维多利亚冠鸽展翅,蓝色羽毛在阳光下闪耀” → Goku 生成高清写实风格的视频。
- 多风格视频生成
Goku 不只是单一的写实视频,它还能 生成不同风格的视频,满足不同的创意需求:
📷 写实风格:适用于广告、影视,例如高清晰度的人物、城市、自然风光等。
🎭 3D 动画:类似于皮克斯、迪士尼的动画风格,适合游戏和电影动画。
🖼 剪纸风格(Papercraft):像手工剪纸动画一样,适用于儿童故事和艺术短片。
🎨 赛博朋克、复古电影风格:可以制作电影般的氛围,如复古科幻、赛博朋克、慢动作等。
📌 示例:
- Goku+(广告优化版)
Goku+ 是 Goku 的增强版,专门针对 广告视频 进行优化:
生成真人广告视频(营销头像、直播推流)。
自动创建产品视频(例如,把静态产品图片转换为视频)。
让人物与产品交互(如展示手表、服装、化妆品)。
- 长时序视频生成
传统 AI 视频生成:很多 AI 视频只能生成 几秒钟的短片,而且画面可能会有“抖动”或“失真”。
Goku:可以生成 20 秒以上 的稳定视频,人物的动作流畅,画面细节更自然。
- 真实人物和手部动作优化
很多 AI 生成的视频都会有 手部扭曲、面部表情呆滞 的问题,但 Goku 解决了这些问题:
生成的人物面部表情丰富,嘴巴和眼睛的变化很自然。
手部动作真实,不会出现 AI 经常出现的“手指错位”问题。
Goku 生成的真人视频能保持:
表情真实生动
手部动作自然
肢体协调
适用于 主播、虚拟偶像、教育视频等场景。
- 动态镜头控制
Goku 能生成带有电影级镜头语言的视频,如:
慢动作
跟踪拍摄
长镜头
航拍
特写
- AI 电影制作
Goku 可帮助电影制作人快速生成视频 概念片段、预告片、视觉效果(VFX) 等,提高影视制作效率。
Goku 的技术创新与技术方法
🔬 1. 技术创新
Goku 采用 流式(Flow-Based)视频生成模型,在视频质量、时序一致性、长视频生成等方面做出了突破,解决了传统 AI 生成视频时出现的“画面闪烁”、“帧与帧不一致”等问题。
(1)流式架构(Flow-Based Model)
传统方法的问题:
许多 AI 视频生成技术使用 扩散模型(Diffusion Model) 或 GAN(生成对抗网络),但这些方法容易导致视频帧之间不稳定,画面容易抖动或缺乏一致性。
Goku 的创新:
采用 流式架构(Flow-Based Model),确保每一帧视频都可以连续生成,不会出现视频抖动或丢帧问题。
能够生成 20 秒以上的稳定长视频(相比之下,许多传统 AI 视频模型只能生成 2~5 秒短片)。
(2)视频时序一致性(Temporal Consistency)
解决视频生成中的“跳帧”问题:
传统 AI 生成的视频经常出现人物或背景在不同帧之间变化过大,导致“闪烁感”。
Goku 通过 时间一致性约束(Temporal Consistency Constraint),确保前后帧的内容协调,不会出现突然变形或失真的情况。
(3)视频渲染的高分辨率 & 细节优化
Goku 采用高分辨率优化策略,使生成的视频更加高清,细节更丰富。
例如:
人物皮肤、衣服的褶皱、头发细节更加清晰。
环境渲染更自然(如光影、倒影、质感等更真实)。
色彩过渡更平滑,避免 AI 视频中常见的色块、模糊问题。
(4)长时序稳定性(Long Video Stability)
传统 AI 视频模型很难生成 超过 10 秒的流畅视频,因为 AI 需要记住前后帧的内容,但传统方法的记忆能力有限。
Goku 突破了 20 秒以上的稳定视频生成,并保持 风格、画面、镜头运动一致,适用于电影、广告等长视频应用场景。
(5)真实人物 & 真实手部优化
AI 生成的人物常出现 面部僵硬、表情不自然、手指变形 等问题。
Goku 通过 高精度人物建模 + 人体运动模拟,提升以下部分的质量:
面部表情细节:AI 能识别微笑、皱眉、眨眼等微表情,使视频更具真实感。
手部动作稳定:避免 AI 生成的“畸形手”问题,确保手势自然流畅。
🛠 2. 技术方法
Goku 的核心技术架构由 三大核心模块 组成: 1.
文本理解(Text Encoding)
视频生成(Video Synthesis)
后处理优化(Post-Processing Optimization)
📌(1)文本理解:多模态大模型(Multimodal Large Model)
Goku 采用 多模态 AI 技术,可以理解 文本描述,并转换成视频内容。
主要使用 Transformer + 扩散模型(Diffusion Model),以确保 AI 能精准理解文字,并生成相应的视频画面。
📌 示例:
输入文本:「一个身穿红色外套的男子,在夜晚的巴黎街头行走,街灯投下温暖的光影。」
AI 解析步骤: 1.
识别 “男子” → 生成一个符合描述的男性角色。
识别 “红色外套” → 让 AI 在视频中给人物穿上红色外套。
识别 “夜晚” → 生成夜晚的光影效果,增强氛围感。
📌(2)视频生成:流式生成模型(Flow-Based Video Generation)
Goku 的核心视频生成采用 流式建模(Flow-Based Model),结合 扩散模型(Diffusion Model) 和 神经渲染(Neural Rendering),确保视频流畅且稳定。
流式模型 让 Goku 能够生成 逐帧稳定的画面,避免画面“跳动”问题。
神经渲染(Neural Rendering) 提升光影效果,使画面更真实。
📌 示例:
生成一个「雪地里的猛犸象」:
传统 AI 可能会出现“象的毛发在不同帧变换”或者“场景突然变黑”。
Goku 通过流式建模,确保猛犸象的每一帧都连贯,雪地的颜色和光影保持一致。
📌(3)后处理优化(Post-Processing Optimization)
Goku 还采用了多种优化技术,确保视频输出质量:
帧间优化(Frame Consistency Enhancement):解决“帧抖动”问题,让视频看起来更稳定。
超分辨率(Super-Resolution):提高视频分辨率,避免模糊。
动态光影调整(Dynamic Lighting Correction):确保视频光照效果自然,提升真实感。
📌 示例:
生成一段「城市夜景」视频:
AI 可能会出现 不同帧之间的光线颜色变化不一致。
Goku 采用 动态光影调整,使街灯的光影变化符合物理规律,避免突兀变化。
GitHub:https://saiyan-world.github.io/goku/
论文:https://arxiv.org/pdf/2502.04896
GitHub:https://github.com/Saiyan-World/goku