开源界第一个在单次推理中同时生成视频和音频的生产级 AI 模型——声画同步,一步到位
Overview
LTX-2 由以色列 AI 公司 Lightricks 开发,是一个 19B 参数的扩散变换器(DiT)模型。 它的核心突破在于:不再需要先生成视频再配音,而是在同一次前向传播中同时产出画面和声音。
14B 参数的视频流,支持 1080p / 1440p / 4K 多分辨率输出,24~50fps 可调帧率,画面细节远超同级开源模型。
5B 参数的音频流,生成对白、音效、环境音、背景音乐。唇形同步精准,脚步声随动作节奏自然匹配。
视频流与音频流通过双向交叉注意力层耦合,共享时间步条件,确保去噪过程中两个模态始终对齐。
通过深度图、姿态骨骼、摄像机路径等三维空间信息条件化生成,实现对画面的精确、可复现的控制。
FP8 量化版可在单张 RTX 4090(24GB)上运行,无需专业级 GPU 集群,个人创作者也能本地部署。
Apache 2.0 协议。学术免费,年收入 <1000 万美元的公司免费使用。权重、代码、ComfyUI 节点全部公开。
Core Innovation
一次推理,视频和音频同步产出。告别"先生成视频、再配音、手动对齐"的割裂流程。
Architecture
两条独立的扩散变换器流(视频 14B + 音频 5B)通过双向交叉注意力机制在每一步去噪中保持对齐。
3D Control
纯文字提示太模糊,通过深度图、姿态骨骼、摄像机路径等三维信息才能实现精确可控的视频生成。
通过 IC-LoRA 注入深度图,强制摄像机几何关系,控制大尺度布局和主体距离。模型在约束下自由选择纹理和光照。
从参考视频提取人体骨骼运动,通过姿态 IC-LoRA 迁移到生成视频中。人物动作精确复现,表情自然过渡。
内置推拉(Dolly)、横移、旋转、跟踪等 30 种预设。Orbit 环绕、侧向移动、深度感知构图——覆盖主流电影镜头语言。
指定首帧 + 中间帧 + 尾帧,模型在关键帧之间智能插值。实现无缝单镜头运动,精确控制视频走向。
Specifications
| 参数 | 规格 | 备注 |
|---|---|---|
| 模型总参数 | 19B | 视频 14B + 音频 5B |
| 架构 | 非对称双流 DiT | Asymmetric Dual-Stream Diffusion Transformer |
| 最大分辨率 | 4K (3840×2160) | 也支持 1080p、1440p |
| 帧率 | 24 / 25 / 48 / 50 fps | 可通过 Temporal Upscaler 2× 提升 |
| 单次最长时长 | 20 秒 | 音视频同步生成 |
| 支持输入 | 文本 / 图片 / 视频 | T2V、I2V、V2V 均支持 |
| 控制条件 | 深度图 / Canny / 姿态 | 通过 IC-LoRA 注入 |
| 空间超分 | 2× Spatial Upscaler | ltx-2-spatial-upscaler-x2 |
| 时间超分 | 2× Temporal Upscaler | ltx-2-temporal-upscaler-x2 |
| 量化格式 | FP16 / FP8 | FP8 可在 24GB 显存运行 |
| 开源协议 | Apache 2.0 | 年营收 <$10M 免费商用 |
| 最新版本 | LTX-2.3 | 2026-03-05 发布 |
Timeline
从纯视频到音画同出,Lightricks 的迭代路径。
Hardware
完整模型需要 NVIDIA CUDA GPU。Mac 用户建议使用云端方案。
FP16 全精度运行,4K 输出流畅,多批次推理无压力。专业工作站或云端首选。
FP8 量化运行。1080p 输出体验良好,4K 需分阶段处理。个人创作者最佳性价比。
需 FP8 量化 + 显存优化。720p-1080p 可用,生成速度较慢,但能跑。
MPS 后端对大模型支持不稳定,音画同出工作流大概率报错。建议使用云端替代方案。
Workflow
LTX-2 已原生集成到 ComfyUI,Day-0 即支持。标准工作流节点如下:
加载 ltx-2-19b-dev 或 FP8 量化版。推荐使用官方 ComfyUI-LTXVideo 节点包。
200 字以内单段描述。包含动作、外观、背景、镜头运动、光影信息,越具体效果越好。
一次推理同时输出视频帧和音频波形。双流 DiT 自动对齐,无需手动同步。
Spatial Upscaler 2× 提升分辨率,Temporal Upscaler 2× 提升帧率。链式调用逐步增强。
Resources