Lightricks · 开源 · Apache 2.0

LTX-2 音画同出

开源界第一个在单次推理中同时生成视频和音频的生产级 AI 模型——声画同步,一步到位

19B
模型参数
4K
原生分辨率
50fps
最高帧率
20s
单次最长

什么是 LTX-2?

LTX-2 由以色列 AI 公司 Lightricks 开发,是一个 19B 参数的扩散变换器(DiT)模型。 它的核心突破在于:不再需要先生成视频再配音,而是在同一次前向传播中同时产出画面和声音。

视频生成

14B 参数的视频流,支持 1080p / 1440p / 4K 多分辨率输出,24~50fps 可调帧率,画面细节远超同级开源模型。

音频生成

5B 参数的音频流,生成对白、音效、环境音、背景音乐。唇形同步精准,脚步声随动作节奏自然匹配。

双向交叉注意力

视频流与音频流通过双向交叉注意力层耦合,共享时间步条件,确保去噪过程中两个模态始终对齐。

3D 精准控制

通过深度图、姿态骨骼、摄像机路径等三维空间信息条件化生成,实现对画面的精确、可复现的控制。

消费级硬件

FP8 量化版可在单张 RTX 4090(24GB)上运行,无需专业级 GPU 集群,个人创作者也能本地部署。

完全开源

Apache 2.0 协议。学术免费,年收入 <1000 万美元的公司免费使用。权重、代码、ComfyUI 节点全部公开。

"音画同出"是什么意思?

一次推理,视频和音频同步产出。告别"先生成视频、再配音、手动对齐"的割裂流程。

传统流程

  1. 用模型 A 生成视频
  2. 用模型 B 生成/匹配音效
  3. 手动调整唇形同步
  4. 后期合成、反复校对
  5. 经常对不齐,体验割裂
VS

LTX-2 音画同出

  1. 输入文本 / 图片提示
  2. 模型同时生成视频+音频
  3. 口型、动作、音效天然同步
  4. 直接输出完整音视频文件
  5. 一步到位,零后期对齐

非对称双流 DiT 架构

两条独立的扩散变换器流(视频 14B + 音频 5B)通过双向交叉注意力机制在每一步去噪中保持对齐。

文本提示Text Prompt
文本嵌入Text Encoder
双流 DiTVideo 14B + Audio 5B
模态 VAEVideo + Audio Decoder
音视频输出Synced A/V

视频流 Video Stream

14B
  • 基于 DiT(Diffusion Transformer)
  • 原生支持 4K / 1440p / 1080p
  • 帧率 24 / 25 / 48 / 50 fps
  • 时空压缩 VAE 编码
  • 深度图 / Canny / 姿态条件输入
双向交叉注意力

音频流 Audio Stream

5B
  • 语音对白(唇形同步)
  • 环境音效(脚步、风声)
  • 背景音乐
  • 音频 VAE 编码/解码
  • 共享时间步条件

只有三维才能精准控制 AI

纯文字提示太模糊,通过深度图、姿态骨骼、摄像机路径等三维信息才能实现精确可控的视频生成。

Depth

深度图控制

通过 IC-LoRA 注入深度图,强制摄像机几何关系,控制大尺度布局和主体距离。模型在约束下自由选择纹理和光照。

Pose

姿态控制

从参考视频提取人体骨骼运动,通过姿态 IC-LoRA 迁移到生成视频中。人物动作精确复现,表情自然过渡。

Camera

30 种电影摄像机运动

内置推拉(Dolly)、横移、旋转、跟踪等 30 种预设。Orbit 环绕、侧向移动、深度感知构图——覆盖主流电影镜头语言。

Keyframe

多关键帧条件

指定首帧 + 中间帧 + 尾帧,模型在关键帧之间智能插值。实现无缝单镜头运动,精确控制视频走向。

技术规格

参数 规格 备注
模型总参数 19B 视频 14B + 音频 5B
架构 非对称双流 DiT Asymmetric Dual-Stream Diffusion Transformer
最大分辨率 4K (3840×2160) 也支持 1080p、1440p
帧率 24 / 25 / 48 / 50 fps 可通过 Temporal Upscaler 2× 提升
单次最长时长 20 秒 音视频同步生成
支持输入 文本 / 图片 / 视频 T2V、I2V、V2V 均支持
控制条件 深度图 / Canny / 姿态 通过 IC-LoRA 注入
空间超分 2× Spatial Upscaler ltx-2-spatial-upscaler-x2
时间超分 2× Temporal Upscaler ltx-2-temporal-upscaler-x2
量化格式 FP16 / FP8 FP8 可在 24GB 显存运行
开源协议 Apache 2.0 年营收 <$10M 免费商用
最新版本 LTX-2.3 2026-03-05 发布

发展时间线

从纯视频到音画同出,Lightricks 的迭代路径。

2025
LTX-Video 1.0
初代视频生成模型,基于 DiT 架构,2B / 13B 参数变体,纯视频无音频。
2025-10
LTX-2 发布
19B 参数,首次实现音视频同步生成。非对称双流 DiT 架构,双向交叉注意力。
2026-01-06
LTX-2 开源
Apache 2.0 协议开源权重和代码,ComfyUI Day-0 集成。开源界第一个生产级音画同出模型。
2026-03-05
LTX-2.3
最新迭代。画面细节、肖像视频、音频质量全面提升。IC-LoRA 3D 控制系统成熟。

硬件需求

完整模型需要 NVIDIA CUDA GPU。Mac 用户建议使用云端方案。

推荐

NVIDIA A100 / H100

80GB VRAM

FP16 全精度运行,4K 输出流畅,多批次推理无压力。专业工作站或云端首选。

可用

NVIDIA RTX 4090

24GB VRAM

FP8 量化运行。1080p 输出体验良好,4K 需分阶段处理。个人创作者最佳性价比。

勉强

NVIDIA RTX 4080 / 3090

16-24GB VRAM

需 FP8 量化 + 显存优化。720p-1080p 可用,生成速度较慢,但能跑。

不建议

Apple Silicon (Mac)

无 CUDA 支持

MPS 后端对大模型支持不稳定,音画同出工作流大概率报错。建议使用云端替代方案。

ComfyUI 工作流

LTX-2 已原生集成到 ComfyUI,Day-0 即支持。标准工作流节点如下:

1. 加载模型

加载 ltx-2-19b-dev 或 FP8 量化版。推荐使用官方 ComfyUI-LTXVideo 节点包。

2. 文本提示

200 字以内单段描述。包含动作、外观、背景、镜头运动、光影信息,越具体效果越好。

3. 音画同步生成

一次推理同时输出视频帧和音频波形。双流 DiT 自动对齐,无需手动同步。

4. 可选超分

Spatial Upscaler 2× 提升分辨率,Temporal Upscaler 2× 提升帧率。链式调用逐步增强。

相关资源