diff --git a/index.html b/index.html index 6977796..caabb6a 100644 --- a/index.html +++ b/index.html @@ -4,43 +4,1169 @@ LTX-2 音画同出研究 + + + + +
+
+ + Lightricks · 开源 · Apache 2.0 +
+

+ LTX-2 音画同出 +

+

+ 开源界第一个在单次推理中同时生成视频和音频的生产级 AI 模型——声画同步,一步到位 +

+
+
+
19B
+
模型参数
+
+
+
4K
+
原生分辨率
+
+
+
50fps
+
最高帧率
+
+
+
20s
+
单次最长
+
+
+
+
-

LTX-2 音画同出研究

-

Lightricks LTX-2 AI视频音频同步生成模型研究

-
-

概述

-

待补充研究内容...

-
+ +
+ +

什么是 LTX-2?

+

+ LTX-2 由以色列 AI 公司 Lightricks 开发,是一个 19B 参数的扩散变换器(DiT)模型。 + 它的核心突破在于:不再需要先生成视频再配音,而是在同一次前向传播中同时产出画面和声音。 +

+
+
+
+ +
+

视频生成

+

14B 参数的视频流,支持 1080p / 1440p / 4K 多分辨率输出,24~50fps 可调帧率,画面细节远超同级开源模型。

+
+
+
+ +
+

音频生成

+

5B 参数的音频流,生成对白、音效、环境音、背景音乐。唇形同步精准,脚步声随动作节奏自然匹配。

+
+
+
+ +
+

双向交叉注意力

+

视频流与音频流通过双向交叉注意力层耦合,共享时间步条件,确保去噪过程中两个模态始终对齐。

+
+
+
+ +
+

3D 精准控制

+

通过深度图、姿态骨骼、摄像机路径等三维空间信息条件化生成,实现对画面的精确、可复现的控制。

+
+
+
+ +
+

消费级硬件

+

FP8 量化版可在单张 RTX 4090(24GB)上运行,无需专业级 GPU 集群,个人创作者也能本地部署。

+
+
+
+ +
+

完全开源

+

Apache 2.0 协议。学术免费,年收入 <1000 万美元的公司免费使用。权重、代码、ComfyUI 节点全部公开。

+
+
+
-
-

核心发现

-

待补充...

-
+ +
+ +

"音画同出"是什么意思?

+

+ 一次推理,视频和音频同步产出。告别"先生成视频、再配音、手动对齐"的割裂流程。 +

+
+
+

传统流程

+
    +
  1. 用模型 A 生成视频
  2. +
  3. 用模型 B 生成/匹配音效
  4. +
  5. 手动调整唇形同步
  6. +
  7. 后期合成、反复校对
  8. +
  9. 经常对不齐,体验割裂
  10. +
+
+
VS
+
+

LTX-2 音画同出

+
    +
  1. 输入文本 / 图片提示
  2. +
  3. 模型同时生成视频+音频
  4. +
  5. 口型、动作、音效天然同步
  6. +
  7. 直接输出完整音视频文件
  8. +
  9. 一步到位,零后期对齐
  10. +
+
+
+
+ + +
+ +

非对称双流 DiT 架构

+

+ 两条独立的扩散变换器流(视频 14B + 音频 5B)通过双向交叉注意力机制在每一步去噪中保持对齐。 +

+ + +
+
+
+ 文本提示Text Prompt +
+
+
+ 文本嵌入Text Encoder +
+
+
+ 双流 DiTVideo 14B + Audio 5B +
+
+
+ 模态 VAEVideo + Audio Decoder +
+
+
+ 音视频输出Synced A/V +
+
+
+ + +
+
+

视频流 Video Stream

+
14B
+
    +
  • 基于 DiT(Diffusion Transformer)
  • +
  • 原生支持 4K / 1440p / 1080p
  • +
  • 帧率 24 / 25 / 48 / 50 fps
  • +
  • 时空压缩 VAE 编码
  • +
  • 深度图 / Canny / 姿态条件输入
  • +
+
+
+
+
双向交叉注意力
+
+
+
+

音频流 Audio Stream

+
5B
+
    +
  • 语音对白(唇形同步)
  • +
  • 环境音效(脚步、风声)
  • +
  • 背景音乐
  • +
  • 音频 VAE 编码/解码
  • +
  • 共享时间步条件
  • +
+
+
+
+ + +
+ +

只有三维才能精准控制 AI

+

+ 纯文字提示太模糊,通过深度图、姿态骨骼、摄像机路径等三维信息才能实现精确可控的视频生成。 +

+
+
+ Depth +

深度图控制

+

通过 IC-LoRA 注入深度图,强制摄像机几何关系,控制大尺度布局和主体距离。模型在约束下自由选择纹理和光照。

+
+
+ Pose +

姿态控制

+

从参考视频提取人体骨骼运动,通过姿态 IC-LoRA 迁移到生成视频中。人物动作精确复现,表情自然过渡。

+
+
+ Camera +

30 种电影摄像机运动

+

内置推拉(Dolly)、横移、旋转、跟踪等 30 种预设。Orbit 环绕、侧向移动、深度感知构图——覆盖主流电影镜头语言。

+
+
+ Keyframe +

多关键帧条件

+

指定首帧 + 中间帧 + 尾帧,模型在关键帧之间智能插值。实现无缝单镜头运动,精确控制视频走向。

+
+
+
+ + +
+ +

技术规格

+
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
参数规格备注
模型总参数19B视频 14B + 音频 5B
架构非对称双流 DiTAsymmetric Dual-Stream Diffusion Transformer
最大分辨率4K (3840×2160)也支持 1080p、1440p
帧率24 / 25 / 48 / 50 fps可通过 Temporal Upscaler 2× 提升
单次最长时长20 秒音视频同步生成
支持输入文本 / 图片 / 视频T2V、I2V、V2V 均支持
控制条件深度图 / Canny / 姿态通过 IC-LoRA 注入
空间超分2× Spatial Upscalerltx-2-spatial-upscaler-x2
时间超分2× Temporal Upscalerltx-2-temporal-upscaler-x2
量化格式FP16 / FP8FP8 可在 24GB 显存运行
开源协议Apache 2.0年营收 <$10M 免费商用
最新版本LTX-2.32026-03-05 发布
+
+
+ + +
+ +

发展时间线

+

从纯视频到音画同出,Lightricks 的迭代路径。

+
+
+
+
2025
+
LTX-Video 1.0
+
初代视频生成模型,基于 DiT 架构,2B / 13B 参数变体,纯视频无音频。
+
+
+
+
2025-10
+
LTX-2 发布
+
19B 参数,首次实现音视频同步生成。非对称双流 DiT 架构,双向交叉注意力。
+
+
+
+
2026-01-06
+
LTX-2 开源
+
Apache 2.0 协议开源权重和代码,ComfyUI Day-0 集成。开源界第一个生产级音画同出模型。
+
+
+
+
2026-03-05
+
LTX-2.3
+
最新迭代。画面细节、肖像视频、音频质量全面提升。IC-LoRA 3D 控制系统成熟。
+
+
+
+ + +
+ +

硬件需求

+

+ 完整模型需要 NVIDIA CUDA GPU。Mac 用户建议使用云端方案。 +

+
+
+
推荐
+

NVIDIA A100 / H100

+
80GB VRAM
+

FP16 全精度运行,4K 输出流畅,多批次推理无压力。专业工作站或云端首选。

+
+
+
可用
+

NVIDIA RTX 4090

+
24GB VRAM
+

FP8 量化运行。1080p 输出体验良好,4K 需分阶段处理。个人创作者最佳性价比。

+
+
+
勉强
+

NVIDIA RTX 4080 / 3090

+
16-24GB VRAM
+

需 FP8 量化 + 显存优化。720p-1080p 可用,生成速度较慢,但能跑。

+
+
+
不建议
+

Apple Silicon (Mac)

+
无 CUDA 支持
+

MPS 后端对大模型支持不稳定,音画同出工作流大概率报错。建议使用云端替代方案。

+
+
+
+ + +
+ +

ComfyUI 工作流

+

+ LTX-2 已原生集成到 ComfyUI,Day-0 即支持。标准工作流节点如下: +

+
+
+
+ +
+

1. 加载模型

+

加载 ltx-2-19b-dev 或 FP8 量化版。推荐使用官方 ComfyUI-LTXVideo 节点包。

+
+
+
+ +
+

2. 文本提示

+

200 字以内单段描述。包含动作、外观、背景、镜头运动、光影信息,越具体效果越好。

+
+
+
+ +
+

3. 音画同步生成

+

一次推理同时输出视频帧和音频波形。双流 DiT 自动对齐,无需手动同步。

+
+
+
+ +
+

4. 可选超分

+

Spatial Upscaler 2× 提升分辨率,Temporal Upscaler 2× 提升帧率。链式调用逐步增强。

+
+
+
+ + +
+ +

相关资源

+ +
+ + +
+ +