Lightricks发布开源AI视频生成模型：LTX-Video 13B 比同类模型快30倍 可在消费级GPU上运行

📰 正文

Lightricks发布开源AI视频生成模型：LTX-Video 13B。LTXV-13B采用创新的多尺度渲染方法，先以低分辨率生成视频的粗略运动和布局，再逐步细化细节。

这种分层处理显著提升了生成速度（比同类模型快30倍），同时保持高质量输出，减少内存需求。

核心特性：

13 亿参数规模（13B）大幅提升理解力与生成质量，相比旧版模型能力跃升。

多尺度渲染（Multiscale Rendering）先快速生成草图，再精细补全细节，实现更锐利、稳定的画面。

更聪明的动作与场景理解能更准确理解角色动作、场景结构与镜头关系，提升连贯性和逻辑性。

支持关键帧、角色与镜头运动、多镜头组合允许用户通过设置关键帧控制角色、镜头、动作变化，实现定制化动画，具备完整的叙事控制能力。

视频扩展与视频风格迁移支持将现有视频延展或进行风格/动作替换。

多种控制方式支持（ControlNet 类控制）支持 Canny/Depth/Pose 条件控制

速度依然快速，支持本地运行即便性能增强，依旧可在高端消费级显卡上本地部署、快速生成。

技术亮点与性能优势

架构基础

Transformer + Latent Diffusion

使用 DiT（Diffusion Transformer）架构建模潜在空间，结合 Stable Diffusion 风格的时间建模

多尺度流程处理：粗粒度草图 → 局部精化 → 结构一致性增强

LTXV 使用了一种叫做多阶段渲染（Multistage or Multiscale Rendering）的技术： 1.

第一阶段：快速草图生成（粗渲染）模型先以较低分辨率或较粗的结构生成完整视频草稿，这一步主要关注动作流畅性和场景布局，以确保故事逻辑通顺、镜头自然。

第二阶段：逐帧精修（细节增强）在草图基础上，每一帧都会被进一步细化和增强，包括人物的面部细节、物体纹理、光影表现等，从而实现高清、锐利的视觉效果。

▶ 支持输入类型：

文本（Text-to-Video）

图像（Image-to-Video）

视频（Video-to-Video、视频扩展）

动作/深度/姿态控制（Conditioning）

LTXV-13B 最大的亮点是其高效率与高质量的生成能力。这得益于以下几个关键技术： 1.

多尺度渲染（Multiscale Rendering）：生成流程分两步，先粗略画出动作结构，再细化画面细节。这种策略大幅提高了生成速度，也让视频内容更自然、更锐利。

内核级优化：在模型架构层面进行深度优化，使得推理效率比同类模型提升高达 30 倍，尤其在消费级 GPU 上表现优秀。

Prompt 精确执行：模型对文本提示的理解能力明显增强，能够精准匹配用户描述，生成的内容更符合意图。

实时输出能力：在如 RTX 4090/5090 等主流 GPU 上，可以实现 30FPS 实时视频生成，适合互动应用、快速预览等场景。

输出分辨率与质量：默认支持 1216×704 分辨率，在细节表现和运动流畅度上达到准影视级效果。

运行与部署

LTXV-13B 是为本地部署而设计的开源模型。完整版运行需要至少 8GB 显存，但官方还提供了轻量版的量化模型（FP8），适用于显存更小的设备。

用户可以通过 Hugging Face 下载模型，也可以在 GitHub 获取代码并本地部署。同时，Lightricks 还开放了 API 接口，适合企业级集成使用。

开发工具与生态支持

为了让用户更方便地训练、定制和扩展模型，LTXV 提供了完整的工具链：

LTX-Video-Trainer：用于对模型进行再训练或微调，支持个性化数据集。

ComfyUI 插件集成：模型可无缝接入 ComfyUI 工作流，支持图形化操作。

LoRA 微调支持：允许用户通过低秩自适应（LoRA）方法定制风格、人物、镜头等效果。

Hugging Face & GitHub 集成：在线试用、模型管理、代码更新都在这些平台上同步。

LTXV-13B 以开放权重许可协议（LTXV Open Weights License）形式发布，完全开源，鼓励社区参与训练、开发、部署与应用。

开源内容包括：

模型代码与推理脚本

LoRA 支持工具

样例工作流与使用案例

模型下载：Hugging Face - LTXV-13B

GitHub ：LTXV Repo

模型介绍：https://ltxv.video/#get-started

LTXV 模型支持 60 秒原生视频生成

同时LTXV 成为首个真正支持「原生长视频（long-form video）」生成的开源模型，单次生成时长可达 60 秒，性能、可控性、适配性全面超越其他开源模型。

✅ 生成时长提升至 60 秒（原生）

过去主流开源模型如 SVD、Pika、ZerScope 等，一次性生成的视频通常为 2～8 秒，而 LTXV 一次就可生成长达 60 秒的视频，无需后期拼接。这意味着更强的故事表达能力，更适用于影视、广告、创意动画等场景。

✅ 比同类快 10~100 倍，成本更低

得益于 LTXV 的多尺度渲染与推理引擎优化，其速度相比 Diffusion 类视频模型更快，本地生成甚至可达到 30FPS 实时速率，同时在显存和算力消耗上更加经济。

✅ 消费级 GPU 就能运行

不需要昂贵的 A100/H100 服务器，RTX 4080/4090 甚至 3070 Ti 就可以运行完整版模型。如果使用量化模型（如 FP8 版本），6~8GB 显存也能跑。

✅ 多种控制方式支持（ControlNet 类控制）

模型支持以下高级控制输入：

姿态控制（Pose）：输入人物骨架动作，生成符合动作的视频。

深度图控制（Depth）：通过图像深度图指导生成画面空间感。

LoRA 控制模块（Control LoRA）：可定制风格、角色、镜头语言等个性控制方式。

这些能力意味着你可以「导演式」地控制视频内容，而非只能靠随机生成。

详细：https://www.lightricks.com/

试用：https://app.ltx.studio/motion-workspace?videoModel=ltxv-13b

来源：Lightricks发布开源AI视频生成模型：LTX-Video 13B 比同类模型快30倍可在消费级GPU上运行

📰 正文#

📰 正文