📰 正文

LTX-2 是由 Lightricks 开发的 DiT(Diffusion Transformer)架构的音视频基础模型,支持灵活的生成控制、快速推理、以及音视频同步输出。

它是目前首个公开发布的、在单一模型中整合 视觉、听觉、语言理解 的音视频生成系统。

该模型在质量、速度与同步精度上均达到开源领域的领先水平。

LTX-2 是首个真正开源的音视频生成模型,发布了完整的模型权重和训练代码。

原生支持 4K / 50 FPS 输出,支持最长 20 秒高保真视频生成。

音视频同步:同时生成动作、对白、环境音与音乐,保持时间一致性。

模型可在消费级 RTX 显卡上本地运行。

开源内容包括:

完整模型权重及精简版本

可控的 LoRA 模块(用于摄像头、结构、条件控制)

多模态训练器

基准测试、评估脚本及文档

模型支持音视频同步生成、多关键帧、细粒度控制,所有功能原生集成。

提供完整工作流支持,包括摄像头控制与 IC LoRA 条件输入。

提供 LTX API,支持开发者在生产环境中直接调用模型,快速集成视频生成能力。

之前有介绍:

该模型具备以下特性:

音视频同步生成

高保真视频质量

多种性能模式

可生产级输出

image

模型版本及特点

image

1、开源内容清单

这一开源版本不仅仅是模型权重,而是提供了构建与再训练完整系统所需的所有组件,包括:

完整模型权重

精简(蒸馏)版本:用于更轻量级部署。

Controllable LoRAs(低秩适配器):控制以下方面:

Camera(摄像头视角/运动)

Structure(结构布局)

Conditioning(输入条件/上下文)

多模态训练器(multimodal trainer):支持训练和微调。

基准测试工具、评估脚本与详细文档。

这套发布堪称“完整栈”(full stack)开源。

2、原生音视频同步与控制功能

LTX-2 将音频和视频生成功能内建于一个单一模型中,支持:

原生的 音视频同步生成

多关键帧支持,适合生成动态视频而非单一场景

细粒度控制,例如控制视角、结构、语音内容等,全部在模型内部支持,而非依赖后处理或外挂脚本

该模型完全可检视(inspectable)和可复现(reproducible),保证研究性和透明度。

3、工作流优先设计

与以研究为导向的模型不同,LTX-2 强调工作流适配性:

摄像头控制和 IC LoRA 被设计为模型的一级输入项(first-class conditioning inputs)

支持开发者基于这些控制项进行微调(fine-tune)和扩展(extend)

适用于 生产级工作流程,如影视、游戏、虚拟人等场景

4、本地部署与性能优化

LTX-2 专门为本地运行优化:

在 RTX 消费级 PC 上实现“高保真度 + 实用速度”

提供 量化模型检查点(quantized checkpoints),可有效降低内存消耗同时保持输出质量

所有这些功能完全在本地运行,无需连接云服务

image

主要技术特点

1️⃣ 统一的音视频生成架构

LTX-2 采用 双流 Transformer 结构(Dual-Stream Diffusion Transformer):

视频流(14B 参数)负责画面生成;

音频流(5B 参数)负责声音生成; 两者通过 双向跨模态注意力(Cross-Modal Attention) 实时交换信息, 确保声音与画面在时间上精确同步(如嘴型、动作、环境变化等)。

这种设计避免了传统“先视频后加音”方式的延迟和错位问题。


2️⃣ 非对称架构与高效推理

音频和视频在信息密度上差异很大。 LTX-2 通过“非对称架构”为视频分配更多计算资源、为音频流减轻负担, 从而在保证质量的同时显著提升推理速度。

在相同硬件条件下:

LTX-2 的生成速度约为 Wan-2.2 模型的 18 倍;

能生成 最长 20 秒、1080p 分辨率 的同步音视频。


3️⃣ 多层文本理解与“思考Token”机制

模型使用 Gemma-3 大型语言模型 作为文本理解模块, 并提取其所有层的语义特征,而非只使用最终层输出。 此外引入“Thinking Tokens(思考Token)”, 帮助模型在正式生成前建立更完整的语义与情境理解。

这一机制显著提升了:

语音内容与嘴型的匹配度;

语音语调、情感、节奏的自然性;

对复杂、多句 Prompt 的理解能力。


4️⃣ 高保真的音频生成系统

音频部分采用 Causal Audio VAE + 改进版 HiFi-GAN Vocoder。

将原始音频压缩为 128 维潜空间表示,保证高效训练与推理;

最终输出 24 kHz 双声道立体声,保真度高、空间感强。


5️⃣ 模态感知引导(Modality-Aware CFG)

在推理阶段引入新的 双向指导机制, 可以分别调节:

文本对生成的影响强度(st);

音视频之间的同步强度(sm)。

这使生成过程更加稳定且可控。


6️⃣ 多尺度、多块推理(Multi-Scale & Multi-Tile)

模型先生成低分辨率基础视频,再通过潜空间上采样与局部细化, 实现高分辨率(最高 1080p)输出,显著节省显存占用。


7️⃣ 训练与数据系统

LTX-2 在 LTX-Video 数据集的子集上训练, 并使用 Lightricks 自研的音视频联合字幕系统进行数据标注, 确保每个样本同时包含:

精确的画面描述;

环境声、对白内容;

说话者身份、语言与口音等元信息。

这种高质量三模态数据是其同步效果突出的关键。


Prompt(提示词)建议

LTX-2 的视频生成效果极大依赖于 prompt 的写法。 Lightricks 官方建议按“导演分镜”思路写:

✅ 写得好的 Prompt 示例:

A cinematic shot of a woman standing on a rainy street, neon reflections on wet asphalt, the camera slowly zooms in.

❌ 写得差的 Prompt 示例:

A woman in rain.

📘 关键技巧:

详细描述镜头动作(zoom, pan, tilt)

指出时间、光线、环境

保持时序清晰,一段文字讲完一个场景

控制字数在 200词以内

在线体验

LTX-Studio Text-to-Video

LTX-Studio Image-to-Video

直接在浏览器中输入文字或上传图片,即可生成视频。

LTX-2 已内置于 ComfyUI,可以在图形界面里用拖拽节点方式生成视频。

安装方法:在 ComfyUI Manager 搜索 “LTXVideo” 即可。

GitHub:https://github.com/Lightricks/LTX-2

模型下载:https://huggingface.co/Lightricks/LTX-2

模型介绍:https://ltx.io/model


来源:开源版Veo 3:LTX-2 宣布开源 支持音视频同步输出