开源版Veo 3：LTX-2 宣布开源 支持音视频同步输出

📰 正文

LTX-2 是由 Lightricks 开发的 DiT（Diffusion Transformer）架构的音视频基础模型，支持灵活的生成控制、快速推理、以及音视频同步输出。

它是目前首个公开发布的、在单一模型中整合视觉、听觉、语言理解的音视频生成系统。

该模型在质量、速度与同步精度上均达到开源领域的领先水平。

LTX-2 是首个真正开源的音视频生成模型，发布了完整的模型权重和训练代码。

原生支持 4K / 50 FPS 输出，支持最长 20 秒高保真视频生成。

音视频同步：同时生成动作、对白、环境音与音乐，保持时间一致性。

模型可在消费级 RTX 显卡上本地运行。

开源内容包括：

完整模型权重及精简版本

可控的 LoRA 模块（用于摄像头、结构、条件控制）

多模态训练器

基准测试、评估脚本及文档

模型支持音视频同步生成、多关键帧、细粒度控制，所有功能原生集成。

提供完整工作流支持，包括摄像头控制与 IC LoRA 条件输入。

提供 LTX API，支持开发者在生产环境中直接调用模型，快速集成视频生成能力。

之前有介绍：

该模型具备以下特性：

音视频同步生成

高保真视频质量

多种性能模式

可生产级输出

模型版本及特点

1、开源内容清单

这一开源版本不仅仅是模型权重，而是提供了构建与再训练完整系统所需的所有组件，包括：

完整模型权重

精简（蒸馏）版本：用于更轻量级部署。

Controllable LoRAs（低秩适配器）：控制以下方面：

Camera（摄像头视角/运动）

Structure（结构布局）

Conditioning（输入条件/上下文）

多模态训练器（multimodal trainer）：支持训练和微调。

基准测试工具、评估脚本与详细文档。

这套发布堪称“完整栈”（full stack）开源。

2、原生音视频同步与控制功能

LTX-2 将音频和视频生成功能内建于一个单一模型中，支持：

原生的音视频同步生成

多关键帧支持，适合生成动态视频而非单一场景

细粒度控制，例如控制视角、结构、语音内容等，全部在模型内部支持，而非依赖后处理或外挂脚本

该模型完全可检视（inspectable）和可复现（reproducible），保证研究性和透明度。

3、工作流优先设计

与以研究为导向的模型不同，LTX-2 强调工作流适配性：

摄像头控制和 IC LoRA 被设计为模型的一级输入项（first-class conditioning inputs）

支持开发者基于这些控制项进行微调（fine-tune）和扩展（extend）

适用于生产级工作流程，如影视、游戏、虚拟人等场景

4、本地部署与性能优化

LTX-2 专门为本地运行优化：

在 RTX 消费级 PC 上实现“高保真度 + 实用速度”

提供量化模型检查点（quantized checkpoints），可有效降低内存消耗同时保持输出质量

所有这些功能完全在本地运行，无需连接云服务

主要技术特点

1️⃣ 统一的音视频生成架构

LTX-2 采用双流 Transformer 结构（Dual-Stream Diffusion Transformer）：

视频流（14B 参数）负责画面生成；

音频流（5B 参数）负责声音生成；两者通过双向跨模态注意力（Cross-Modal Attention）实时交换信息，确保声音与画面在时间上精确同步（如嘴型、动作、环境变化等）。

这种设计避免了传统“先视频后加音”方式的延迟和错位问题。

2️⃣ 非对称架构与高效推理

音频和视频在信息密度上差异很大。 LTX-2 通过“非对称架构”为视频分配更多计算资源、为音频流减轻负担，从而在保证质量的同时显著提升推理速度。

在相同硬件条件下：

LTX-2 的生成速度约为 Wan-2.2 模型的 18 倍；

能生成最长 20 秒、1080p 分辨率的同步音视频。

3️⃣ 多层文本理解与“思考Token”机制

模型使用 Gemma-3 大型语言模型作为文本理解模块，并提取其所有层的语义特征，而非只使用最终层输出。此外引入“Thinking Tokens（思考Token）”，帮助模型在正式生成前建立更完整的语义与情境理解。

这一机制显著提升了：

语音内容与嘴型的匹配度；

语音语调、情感、节奏的自然性；

对复杂、多句 Prompt 的理解能力。

4️⃣ 高保真的音频生成系统

音频部分采用 Causal Audio VAE + 改进版 HiFi-GAN Vocoder。

将原始音频压缩为 128 维潜空间表示，保证高效训练与推理；

最终输出 24 kHz 双声道立体声，保真度高、空间感强。

5️⃣ 模态感知引导（Modality-Aware CFG）

在推理阶段引入新的双向指导机制，可以分别调节：

文本对生成的影响强度（st）；

音视频之间的同步强度（sm）。

这使生成过程更加稳定且可控。

6️⃣ 多尺度、多块推理（Multi-Scale & Multi-Tile）

模型先生成低分辨率基础视频，再通过潜空间上采样与局部细化，实现高分辨率（最高 1080p）输出，显著节省显存占用。

7️⃣ 训练与数据系统

LTX-2 在 LTX-Video 数据集的子集上训练，并使用 Lightricks 自研的音视频联合字幕系统进行数据标注，确保每个样本同时包含：

精确的画面描述；

环境声、对白内容；

说话者身份、语言与口音等元信息。

这种高质量三模态数据是其同步效果突出的关键。

Prompt（提示词）建议

LTX-2 的视频生成效果极大依赖于 prompt 的写法。 Lightricks 官方建议按“导演分镜”思路写：

✅ 写得好的 Prompt 示例：

A cinematic shot of a woman standing on a rainy street, neon reflections on wet asphalt, the camera slowly zooms in.

❌ 写得差的 Prompt 示例：

A woman in rain.

📘 关键技巧：

详细描述镜头动作（zoom, pan, tilt）

指出时间、光线、环境

保持时序清晰，一段文字讲完一个场景

控制字数在 200词以内

在线体验

LTX-Studio Text-to-Video

LTX-Studio Image-to-Video

直接在浏览器中输入文字或上传图片，即可生成视频。

LTX-2 已内置于 ComfyUI，可以在图形界面里用拖拽节点方式生成视频。

安装方法：在 ComfyUI Manager 搜索 “LTXVideo” 即可。

GitHub：https://github.com/Lightricks/LTX-2

模型下载：https://huggingface.co/Lightricks/LTX-2

模型介绍：https://ltx.io/model

来源：开源版Veo 3：LTX-2 宣布开源支持音视频同步输出

📰 正文#

📰 正文