📰 正文

Lightricks发布开源AI视频生成模型:LTX-Video 13B。LTXV-13B采用创新的多尺度渲染方法,先以低分辨率生成视频的粗略运动和布局,再逐步细化细节。

这种分层处理显著提升了生成速度(比同类模型快30倍),同时保持高质量输出,减少内存需求。

核心特性:

13 亿参数规模(13B) 大幅提升理解力与生成质量,相比旧版模型能力跃升。

多尺度渲染(Multiscale Rendering) 先快速生成草图,再精细补全细节,实现更锐利、稳定的画面。

更聪明的动作与场景理解 能更准确理解角色动作、场景结构与镜头关系,提升连贯性和逻辑性。

支持关键帧、角色与镜头运动、多镜头组合 允许用户通过设置关键帧控制角色、镜头、动作变化,实现定制化动画,具备完整的叙事控制能力。

视频扩展与视频风格迁移 支持将现有视频延展或进行风格/动作替换。

多种控制方式支持(ControlNet 类控制) 支持 Canny/Depth/Pose 条件控制

速度依然快速,支持本地运行 即便性能增强,依旧可在高端消费级显卡上本地部署、快速生成。


技术亮点与性能优势

image

架构基础

Transformer + Latent Diffusion

使用 DiT(Diffusion Transformer)架构建模潜在空间,结合 Stable Diffusion 风格的时间建模

多尺度流程处理:粗粒度草图 → 局部精化 → 结构一致性增强

image

LTXV 使用了一种叫做 多阶段渲染(Multistage or Multiscale Rendering) 的技术: 1.

第一阶段:快速草图生成(粗渲染) 模型先以较低分辨率或较粗的结构生成完整视频草稿,这一步主要关注动作流畅性和场景布局,以确保故事逻辑通顺、镜头自然。

第二阶段:逐帧精修(细节增强) 在草图基础上,每一帧都会被进一步细化和增强,包括人物的面部细节、物体纹理、光影表现等,从而实现高清、锐利的视觉效果。

▶ 支持输入类型:

文本(Text-to-Video)

图像(Image-to-Video)

视频(Video-to-Video、视频扩展)

动作/深度/姿态控制(Conditioning)


LTXV-13B 最大的亮点是其高效率与高质量的生成能力。这得益于以下几个关键技术: 1.

多尺度渲染(Multiscale Rendering):生成流程分两步,先粗略画出动作结构,再细化画面细节。这种策略大幅提高了生成速度,也让视频内容更自然、更锐利。

内核级优化:在模型架构层面进行深度优化,使得推理效率比同类模型提升高达 30 倍,尤其在消费级 GPU 上表现优秀。

Prompt 精确执行:模型对文本提示的理解能力明显增强,能够精准匹配用户描述,生成的内容更符合意图。

实时输出能力:在如 RTX 4090/5090 等主流 GPU 上,可以实现 30FPS 实时视频生成,适合互动应用、快速预览等场景。

输出分辨率与质量:默认支持 1216×704 分辨率,在细节表现和运动流畅度上达到准影视级效果。


运行与部署

LTXV-13B 是为本地部署而设计的开源模型。完整版运行需要至少 8GB 显存,但官方还提供了轻量版的 量化模型(FP8),适用于显存更小的设备。

用户可以通过 Hugging Face 下载模型,也可以在 GitHub 获取代码并本地部署。同时,Lightricks 还开放了 API 接口,适合企业级集成使用。

开发工具与生态支持

为了让用户更方便地训练、定制和扩展模型,LTXV 提供了完整的工具链:

LTX-Video-Trainer:用于对模型进行再训练或微调,支持个性化数据集。

ComfyUI 插件集成:模型可无缝接入 ComfyUI 工作流,支持图形化操作。

LoRA 微调支持:允许用户通过低秩自适应(LoRA)方法定制风格、人物、镜头等效果。

Hugging Face & GitHub 集成:在线试用、模型管理、代码更新都在这些平台上同步。

LTXV-13B 以 开放权重许可协议(LTXV Open Weights License) 形式发布,完全开源,鼓励社区参与训练、开发、部署与应用。

开源内容包括:

模型代码与推理脚本

LoRA 支持工具

样例工作流与使用案例

模型下载:Hugging Face - LTXV-13B

GitHub :LTXV Repo

模型介绍:https://ltxv.video/#get-started

LTXV 模型支持 60 秒原生视频生成

同时LTXV 成为首个真正支持「原生长视频(long-form video)」生成的开源模型,单次生成时长可达 60 秒,性能、可控性、适配性全面超越其他开源模型。


✅ 生成时长提升至 60 秒(原生)

过去主流开源模型如 SVD、Pika、ZerScope 等,一次性生成的视频通常为 2~8 秒,而 LTXV 一次就可生成长达 60 秒的视频,无需后期拼接。 这意味着更强的故事表达能力,更适用于影视、广告、创意动画等场景。

✅ 比同类快 10~100 倍,成本更低

得益于 LTXV 的多尺度渲染与推理引擎优化,其速度相比 Diffusion 类视频模型更快,本地生成甚至可达到 30FPS 实时速率,同时在显存和算力消耗上更加经济。

✅ 消费级 GPU 就能运行

不需要昂贵的 A100/H100 服务器,RTX 4080/4090 甚至 3070 Ti 就可以运行完整版模型。如果使用量化模型(如 FP8 版本),6~8GB 显存也能跑。

✅ 多种控制方式支持(ControlNet 类控制)

模型支持以下高级控制输入:

姿态控制(Pose):输入人物骨架动作,生成符合动作的视频。

深度图控制(Depth):通过图像深度图指导生成画面空间感。

LoRA 控制模块(Control LoRA):可定制风格、角色、镜头语言等个性控制方式。

这些能力意味着你可以「导演式」地控制视频内容,而非只能靠随机生成。

详细:https://www.lightricks.com/

试用:https://app.ltx.studio/motion-workspace?videoModel=ltxv-13b


来源:Lightricks发布开源AI视频生成模型:LTX-Video 13B 比同类模型快30倍 可在消费级GPU上运行