LTX-2：首个基于 DiT 的音视频基础模型，集成核心能力并附使用指南与优化提示

转载于 2026-06-19 08:46:40 发布 · 16 阅读

LTX-2：集成核心能力的音视频基础模型

LTX-2 是首个基于 DiT 的音视频基础模型，它在一个模型中集成了现代视频生成的所有核心能力，包括音视频同步、高保真度、多种表现模式、可用于生产的输出、API 访问以及开放访问。

快速开始

使用 LTX-2 可按以下步骤进行：1. 克隆仓库，执行命令 `git clone https://github.com/Lightricks/LTX-2.git` 后进入目录 `cd LTX-2`；2. 设置环境，执行 `uv sync --frozen` 并激活虚拟环境 `source .venv/bin/activate`。

所需模型

需要从 LTX-2.3 的 HuggingFace 仓库下载以下模型：1. LTX-2.3 模型检查点（选择并下载其中一个），如 `ltx-2.3-22b-dev.safetensors` 等；2. 空间上采样器，如 `ltx-2.3-spatial-upscaler-x2-1.1.safetensors` 等；3. 时间上采样器，如 `ltx-2.3-temporal-upscaler-x2-1.0.safetensors`；4. 蒸馏 LoRA，如 `ltx-2.3-22b-distilled-lora-384-1.1.safetensors`；5. Gemma 文本编码器，从仓库下载所有资产；6. Gemma 3 LoRAs，如 `LTX-2.3-22b-IC-LoRA-Union-Control` 等。

可用管道

LTX-2 有多种可用管道，如 TI2VidTwoStagesPipeline（具有 2 倍上采样的生产级文本/图像到视频生成，推荐）、TI2VidTwoStagesHQPipeline（与上述两阶段流程相同，但使用 res_2s 二阶采样器，步数更少，质量更好）等。

优化提示

为优化使用体验，可采取以下措施：1. 使用 DistilledPipeline 进行最快推理；2. 启用 FP8 量化降低内存占用；3. 安装注意力优化，如在数据中心的 Blackwell GPU 上手动安装 FlashAttention 4；4. 使用梯度估计减少推理步数；5. 若有足够 VRAM，可跳过内存清理；6. 当不需要高分辨率时，选择单阶段管道 TI2VidOneStagePipeline 进行更快的生成。

为 LTX-2 编写提示

编写提示时，要专注于对动作和场景进行详细的按时间顺序的描述，在一个连贯的段落中，包含具体的动作、外观、摄像机角度和环境细节。可按以下结构构建提示：1. 用一句话描述主要动作；2. 添加关于动作和手势的具体细节；3. 精确描述角色/物体的外观；4. 包含背景和环境细节；5. 指定摄像机角度和移动；6. 描述灯光和颜色；7. 注意任何变化或突发事件。如需更多指导，可参考 [https://ltx.video/blog/how-to-prompt-for-ltx-2](https://ltx.video/blog/how-to-prompt-for-ltx-2)。