LTX-2:首个基于 DiT 的音视频基础模型,集成核心能力并附使用指南与优化提示

LTX-2:集成核心能力的音视频基础模型

LTX-2 是首个基于 DiT 的音视频基础模型,它在一个模型中集成了现代视频生成的所有核心能力,包括音视频同步、高保真度、多种表现模式、可用于生产的输出、API 访问以及开放访问。

快速开始

使用 LTX-2 可按以下步骤进行:1. 克隆仓库,执行命令 `git clone https://github.com/Lightricks/LTX-2.git` 后进入目录 `cd LTX-2`;2. 设置环境,执行 `uv sync --frozen` 并激活虚拟环境 `source .venv/bin/activate`。

所需模型

需要从 LTX-2.3 的 HuggingFace 仓库下载以下模型:1. LTX-2.3 模型检查点(选择并下载其中一个),如 `ltx-2.3-22b-dev.safetensors` 等;2. 空间上采样器,如 `ltx-2.3-spatial-upscaler-x2-1.1.safetensors` 等;3. 时间上采样器,如 `ltx-2.3-temporal-upscaler-x2-1.0.safetensors`;4. 蒸馏 LoRA,如 `ltx-2.3-22b-distilled-lora-384-1.1.safetensors`;5. Gemma 文本编码器,从仓库下载所有资产;6. Gemma 3 LoRAs,如 `LTX-2.3-22b-IC-LoRA-Union-Control` 等。

可用管道

LTX-2 有多种可用管道,如 TI2VidTwoStagesPipeline(具有 2 倍上采样的生产级文本/图像到视频生成,推荐)、TI2VidTwoStagesHQPipeline(与上述两阶段流程相同,但使用 res_2s 二阶采样器,步数更少,质量更好)等。

优化提示

为优化使用体验,可采取以下措施:1. 使用 DistilledPipeline 进行最快推理;2. 启用 FP8 量化降低内存占用;3. 安装注意力优化,如在数据中心的 Blackwell GPU 上手动安装 FlashAttention 4;4. 使用梯度估计减少推理步数;5. 若有足够 VRAM,可跳过内存清理;6. 当不需要高分辨率时,选择单阶段管道 TI2VidOneStagePipeline 进行更快的生成。

为 LTX-2 编写提示

编写提示时,要专注于对动作和场景进行详细的按时间顺序的描述,在一个连贯的段落中,包含具体的动作、外观、摄像机角度和环境细节。可按以下结构构建提示:1. 用一句话描述主要动作;2. 添加关于动作和手势的具体细节;3. 精确描述角色/物体的外观;4. 包含背景和环境细节;5. 指定摄像机角度和移动;6. 描述灯光和颜色;7. 注意任何变化或突发事件。如需更多指导,可参考 [https://ltx.video/blog/how-to-prompt-for-ltx-2](https://ltx.video/blog/how-to-prompt-for-ltx-2)。

自动提示增强

LTX-2 管道支持通过 `enhance_prompt` 参数进行自动提示增强。

ComfyUI 集成

要在 ComfyUI 中使用该模型,需遵循 [https://github.com/Lightricks/ComfyUI-LTXVideo/](https://github.com/Lightricks/ComfyUI-LTXVideo/) 中的说明。

此仓库为一个包含三个主要包的单仓库结构,分别是 ltx-core(核心模型实现、推理栈和实用工具)、ltx-pipelines(用于文本到视频、图像到视频和其他生成模式的高级管道实现)、ltx-trainer(用于 LoRA、全量微调以及 IC-LoRA 的训练和微调工具)。

文档

每个包都包含全面的文档,如 LTX-Core README(核心模型实现、推理栈和实用工具)、LTX-Pipelines README(高级管道实现和使用指南)、LTX-Trainer README(包含详细指南的训练和微调文档)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值