📰 正文
LTX-2 是由 Lightricks 开发的 DiT(Diffusion Transformer)架构的音视频基础模型,支持灵活的生成控制、快速推理、以及音视频同步输出。
它是目前首个公开发布的、在单一模型中整合 视觉、听觉、语言理解 的音视频生成系统。
该模型在质量、速度与同步精度上均达到开源领域的领先水平。
LTX-2 是首个真正开源的音视频生成模型,发布了完整的模型权重和训练代码。
原生支持 4K / 50 FPS 输出,支持最长 20 秒高保真视频生成。
音视频同步:同时生成动作、对白、环境音与音乐,保持时间一致性。
模型可在消费级 RTX 显卡上本地运行。
开源内容包括:
完整模型权重及精简版本
可控的 LoRA 模块(用于摄像头、结构、条件控制)
多模态训练器
基准测试、评估脚本及文档
模型支持音视频同步生成、多关键帧、细粒度控制,所有功能原生集成。
提供完整工作流支持,包括摄像头控制与 IC LoRA 条件输入。
提供 LTX API,支持开发者在生产环境中直接调用模型,快速集成视频生成能力。
之前有介绍:
该模型具备以下特性:
音视频同步生成
高保真视频质量
多种性能模式
可生产级输出
模型版本及特点
1、开源内容清单
这一开源版本不仅仅是模型权重,而是提供了构建与再训练完整系统所需的所有组件,包括:
完整模型权重
精简(蒸馏)版本:用于更轻量级部署。
Controllable LoRAs(低秩适配器):控制以下方面:
Camera(摄像头视角/运动)
Structure(结构布局)
Conditioning(输入条件/上下文)
多模态训练器(multimodal trainer):支持训练和微调。
基准测试工具、评估脚本与详细文档。
这套发布堪称“完整栈”(full stack)开源。
2、原生音视频同步与控制功能
LTX-2 将音频和视频生成功能内建于一个单一模型中,支持:
原生的 音视频同步生成
多关键帧支持,适合生成动态视频而非单一场景
细粒度控制,例如控制视角、结构、语音内容等,全部在模型内部支持,而非依赖后处理或外挂脚本
该模型完全可检视(inspectable)和可复现(reproducible),保证研究性和透明度。
3、工作流优先设计
与以研究为导向的模型不同,LTX-2 强调工作流适配性:
摄像头控制和 IC LoRA 被设计为模型的一级输入项(first-class conditioning inputs)
支持开发者基于这些控制项进行微调(fine-tune)和扩展(extend)
适用于 生产级工作流程,如影视、游戏、虚拟人等场景
4、本地部署与性能优化
LTX-2 专门为本地运行优化:
在 RTX 消费级 PC 上实现“高保真度 + 实用速度”
提供 量化模型检查点(quantized checkpoints),可有效降低内存消耗同时保持输出质量
所有这些功能完全在本地运行,无需连接云服务
主要技术特点
1️⃣ 统一的音视频生成架构
LTX-2 采用 双流 Transformer 结构(Dual-Stream Diffusion Transformer):
视频流(14B 参数)负责画面生成;
音频流(5B 参数)负责声音生成; 两者通过 双向跨模态注意力(Cross-Modal Attention) 实时交换信息, 确保声音与画面在时间上精确同步(如嘴型、动作、环境变化等)。
这种设计避免了传统“先视频后加音”方式的延迟和错位问题。
2️⃣ 非对称架构与高效推理
音频和视频在信息密度上差异很大。 LTX-2 通过“非对称架构”为视频分配更多计算资源、为音频流减轻负担, 从而在保证质量的同时显著提升推理速度。
在相同硬件条件下:
LTX-2 的生成速度约为 Wan-2.2 模型的 18 倍;
能生成 最长 20 秒、1080p 分辨率 的同步音视频。
3️⃣ 多层文本理解与“思考Token”机制
模型使用 Gemma-3 大型语言模型 作为文本理解模块, 并提取其所有层的语义特征,而非只使用最终层输出。 此外引入“Thinking Tokens(思考Token)”, 帮助模型在正式生成前建立更完整的语义与情境理解。
这一机制显著提升了:
语音内容与嘴型的匹配度;
语音语调、情感、节奏的自然性;
对复杂、多句 Prompt 的理解能力。
4️⃣ 高保真的音频生成系统
音频部分采用 Causal Audio VAE + 改进版 HiFi-GAN Vocoder。
将原始音频压缩为 128 维潜空间表示,保证高效训练与推理;
最终输出 24 kHz 双声道立体声,保真度高、空间感强。
5️⃣ 模态感知引导(Modality-Aware CFG)
在推理阶段引入新的 双向指导机制, 可以分别调节:
文本对生成的影响强度(st);
音视频之间的同步强度(sm)。
这使生成过程更加稳定且可控。
6️⃣ 多尺度、多块推理(Multi-Scale & Multi-Tile)
模型先生成低分辨率基础视频,再通过潜空间上采样与局部细化, 实现高分辨率(最高 1080p)输出,显著节省显存占用。
7️⃣ 训练与数据系统
LTX-2 在 LTX-Video 数据集的子集上训练, 并使用 Lightricks 自研的音视频联合字幕系统进行数据标注, 确保每个样本同时包含:
精确的画面描述;
环境声、对白内容;
说话者身份、语言与口音等元信息。
这种高质量三模态数据是其同步效果突出的关键。
Prompt(提示词)建议
LTX-2 的视频生成效果极大依赖于 prompt 的写法。 Lightricks 官方建议按“导演分镜”思路写:
✅ 写得好的 Prompt 示例:
A cinematic shot of a woman standing on a rainy street, neon reflections on wet asphalt, the camera slowly zooms in.
❌ 写得差的 Prompt 示例:
A woman in rain.
📘 关键技巧:
详细描述镜头动作(zoom, pan, tilt)
指出时间、光线、环境
保持时序清晰,一段文字讲完一个场景
控制字数在 200词以内
在线体验
LTX-Studio Text-to-Video
LTX-Studio Image-to-Video
直接在浏览器中输入文字或上传图片,即可生成视频。
LTX-2 已内置于 ComfyUI,可以在图形界面里用拖拽节点方式生成视频。
安装方法:在 ComfyUI Manager 搜索 “LTXVideo” 即可。
GitHub:https://github.com/Lightricks/LTX-2
模型下载:https://huggingface.co/Lightricks/LTX-2
模型介绍:https://ltx.io/model