diff --git a/index.html b/index.html index 6977796..caabb6a 100644 --- a/index.html +++ b/index.html @@ -4,43 +4,1169 @@
+ 开源界第一个在单次推理中同时生成视频和音频的生产级 AI 模型——声画同步,一步到位 +
+Lightricks LTX-2 AI视频音频同步生成模型研究
-待补充研究内容...
-Overview
++ LTX-2 由以色列 AI 公司 Lightricks 开发,是一个 19B 参数的扩散变换器(DiT)模型。 + 它的核心突破在于:不再需要先生成视频再配音,而是在同一次前向传播中同时产出画面和声音。 +
+14B 参数的视频流,支持 1080p / 1440p / 4K 多分辨率输出,24~50fps 可调帧率,画面细节远超同级开源模型。
+5B 参数的音频流,生成对白、音效、环境音、背景音乐。唇形同步精准,脚步声随动作节奏自然匹配。
+视频流与音频流通过双向交叉注意力层耦合,共享时间步条件,确保去噪过程中两个模态始终对齐。
+通过深度图、姿态骨骼、摄像机路径等三维空间信息条件化生成,实现对画面的精确、可复现的控制。
+FP8 量化版可在单张 RTX 4090(24GB)上运行,无需专业级 GPU 集群,个人创作者也能本地部署。
+Apache 2.0 协议。学术免费,年收入 <1000 万美元的公司免费使用。权重、代码、ComfyUI 节点全部公开。
+待补充...
-Core Innovation
++ 一次推理,视频和音频同步产出。告别"先生成视频、再配音、手动对齐"的割裂流程。 +
+Architecture
++ 两条独立的扩散变换器流(视频 14B + 音频 5B)通过双向交叉注意力机制在每一步去噪中保持对齐。 +
+ + +3D Control
++ 纯文字提示太模糊,通过深度图、姿态骨骼、摄像机路径等三维信息才能实现精确可控的视频生成。 +
+通过 IC-LoRA 注入深度图,强制摄像机几何关系,控制大尺度布局和主体距离。模型在约束下自由选择纹理和光照。
+从参考视频提取人体骨骼运动,通过姿态 IC-LoRA 迁移到生成视频中。人物动作精确复现,表情自然过渡。
+内置推拉(Dolly)、横移、旋转、跟踪等 30 种预设。Orbit 环绕、侧向移动、深度感知构图——覆盖主流电影镜头语言。
+指定首帧 + 中间帧 + 尾帧,模型在关键帧之间智能插值。实现无缝单镜头运动,精确控制视频走向。
+Specifications
+| 参数 | +规格 | +备注 | +
|---|---|---|
| 模型总参数 | +19B | +视频 14B + 音频 5B | +
| 架构 | +非对称双流 DiT | +Asymmetric Dual-Stream Diffusion Transformer | +
| 最大分辨率 | +4K (3840×2160) | +也支持 1080p、1440p | +
| 帧率 | +24 / 25 / 48 / 50 fps | +可通过 Temporal Upscaler 2× 提升 | +
| 单次最长时长 | +20 秒 | +音视频同步生成 | +
| 支持输入 | +文本 / 图片 / 视频 | +T2V、I2V、V2V 均支持 | +
| 控制条件 | +深度图 / Canny / 姿态 | +通过 IC-LoRA 注入 | +
| 空间超分 | +2× Spatial Upscaler | +ltx-2-spatial-upscaler-x2 | +
| 时间超分 | +2× Temporal Upscaler | +ltx-2-temporal-upscaler-x2 | +
| 量化格式 | +FP16 / FP8 | +FP8 可在 24GB 显存运行 | +
| 开源协议 | +Apache 2.0 | +年营收 <$10M 免费商用 | +
| 最新版本 | +LTX-2.3 | +2026-03-05 发布 | +
Timeline
+从纯视频到音画同出,Lightricks 的迭代路径。
+Hardware
++ 完整模型需要 NVIDIA CUDA GPU。Mac 用户建议使用云端方案。 +
+FP16 全精度运行,4K 输出流畅,多批次推理无压力。专业工作站或云端首选。
+FP8 量化运行。1080p 输出体验良好,4K 需分阶段处理。个人创作者最佳性价比。
+需 FP8 量化 + 显存优化。720p-1080p 可用,生成速度较慢,但能跑。
+MPS 后端对大模型支持不稳定,音画同出工作流大概率报错。建议使用云端替代方案。
+Workflow
++ LTX-2 已原生集成到 ComfyUI,Day-0 即支持。标准工作流节点如下: +
+加载 ltx-2-19b-dev 或 FP8 量化版。推荐使用官方 ComfyUI-LTXVideo 节点包。
200 字以内单段描述。包含动作、外观、背景、镜头运动、光影信息,越具体效果越好。
+一次推理同时输出视频帧和音频波形。双流 DiT 自动对齐,无需手动同步。
+Spatial Upscaler 2× 提升分辨率,Temporal Upscaler 2× 提升帧率。链式调用逐步增强。
+Resources
+