（2024，Sora 逆向工程，DiT，LVM 技术综述）Sora：大视觉模型的背景、技术、局限性和机遇回顾

本文全面回顾了OpenAI于2024年发布的文本到视频生成模型Sora。介绍其背景、技术，包括数据预处理、建模等，阐述在电影、教育等多领域的应用。同时指出其在物理真实性、人机交互等方面的局限，以及在学术、产业和社会层面带来的机会。

（2024，Sora 逆向工程，DiT，LVM 技术综述）Sora：大视觉模型的背景、技术、局限性和机遇回顾

EDPJ

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

0. 摘要

1. 简介

2. 背景

2.1 历史

2.2 先进概念

3. 技术

3.1 Sora 概述

3.2 数据预处理

3.2.1 变化的持续时间、分辨率、纵横比

3.2.2 统一的视觉表示

3.2.3 视频压缩网络

3.2.4 时空潜在补丁

3.2.5 讨论

3.3 建模

3.3.1 讨论

3.4 语言指令跟随

3.4.1 大型语言模型

3.4.2 文本到图像

3.4.3 文本到视频

3.4.4 讨论

3.5 提示工程

3.5.1 文本提示

3.5.2 图像提示

3.5.3 视频提示

3.5.4 讨论

3.6 可信度

3.6.1 安全性关切

3.6.2 其他滥用

3.6.3 对齐

3.6.4 讨论

4. 应用

4.1 电影

4.2 教育

4.3 游戏

4.4 医疗保健

4.5 机器人技术

5. 讨论

5.1 限制

5.2 机会

0. 摘要
Sora 是一款由 OpenAI 于 2024 年 2 月发布的文本到视频生成的人工智能模型。该模型经过训练，能够根据文本指令生成真实或富有想象力的场景视频，展现了在模拟物理世界方面的潜力。根据公开的技术报告和逆向工程，本文全面回顾了该模型的背景、相关技术、应用、尚存的挑战以及文本到视频人工智能模型未来的发展方向。我们首先追溯了 Sora 的发展历程，并调查了用于构建这个 “世界模拟器” 的基础技术。接着，我们详细描述了 Sora 在从电影制作和教育到营销等多个行业中的应用和潜在影响。我们讨论了需要解决的主要挑战和限制，比如确保视频生成的安全性和公正性。最后，我们探讨了 Sora 和视频生成模型在未来的发展，以及该领域的进展如何能够促使人工智能与人类之间以新的方式互动，提升视频生成的生产力和创造力。

项目页面：https://github.com/lichao-sun/SoraReview

Sora 的技术报告：https://openai.com/sora

1. 简介
技术。Sora 的核心是一个预训练的扩散 transformer [4]。transformer 模型在许多自然语言任务中已经被证明是可扩展和有效的。与强大的大型语言模型（LLMs）如 GPT-4 类似，Sora 能够解析文本并理解复杂的用户指令。为了使视频生成在计算上更高效，Sora 使用时空潜在补丁（spacetime latent patches）作为其构建块。具体而言，Sora 将原始输入视频压缩为潜在的时空表示。然后，从压缩视频中提取一系列潜在时空补丁，以封装视觉外观和短时间间隔内的运动动态。这些补丁类似于语言模型中的单词标记，为 Sora 提供了详细的视觉短语，用于构建视频。Sora 的文本到视频生成是通过一个扩散 transformer 模型完成的。从一个充满视觉噪音的帧开始，该模型迭代地去噪图像并根据提供的文本提示引入特定的细节。实质上，生成的视频通过多步的细化过程出现，每一步都使视频更加符合所需的内容和质量。

Sora 的亮点。Sora 的能力在各个方面都有深远的影响：

提高模拟能力：将 Sora 进行规模化训练归功于其在模拟物理世界各个方面的卓越能力。尽管缺乏明确的 3D 建模，Sora 展示了具有动态摄像机运动和包括对象持久性的长距离连贯性的 3D 一致性，并模拟了与世界的简单交互。此外，Sora 引人注目地模拟数字环境，如由基本策略控制的Minecraft，同时保持视觉保真度。这些新兴的能力表明，扩大视频模型规模可以有效地创建用于模拟物理和数字世界复杂性的人工智能模型。
提升创造力：想象通过文本概述一个概念，无论是简单的物体还是完整的场景，并在几秒钟内看到一个逼真或高度风格化的视频。Sora 为艺术家、电影制片人和设计师提供了一个加速设计过程的方式，以更快地探索和完善想法，从而显著提高创意。
推动教育创新：视觉辅助长期以来一直是理解教育中重要概念的一部分。有了 Sora，教育工作者可以轻松地将课堂计划从文本转化为视频，以吸引学生的注意力并提高学习效率。从科学模拟到历史戏剧化，可能性是无限的。
增强可访问性：在视觉领域增强可访问性至关重要。Sora 通过将文本描述转化为视觉内容提供了创新解决方案。这种能力使所有个体，包括视觉障碍者在内，都能够积极参与内容创作并以更有效的方式与他人互动。因此，它为一个更具包容性的环境提供了可能性，让每个人都有机会通过视频表达自己的想法。
促进新兴应用：Sora 的应用是广泛的。例如，营销人员可能会使用它创建针对特定受众描述的动态广告。游戏开发者可能会使用它从玩家叙述中生成定制的视觉效果或甚至角色动作。
局限性和机遇。虽然 Sora 的成就突显了人工智能领域的重大进展，但仍然存在挑战。描绘复杂的动作或捕捉微妙的面部表情是模型可以改进的领域之一。此外，诸如减轻生成内容中的偏见和防止有害的视觉输出之类的伦理考虑强调了开发者、研究人员和更广泛社区负责任使用的重要性。确保Sora 的输出始终安全和公正是一个主要挑战。视频生成领域正在迅速发展，学术和工业研究团队正在不懈努力。竞争激烈的文本到视频模型的出现表明，Sora 可能很快就会成为一个动态生态系统的一部分。这种协作和竞争的环境促进了创新，推动了视频质量的提高和帮助提高工作者的生产力，使人们的生活更加有趣。

我们的贡献。基于已发表的技术报告和我们的逆向工程，本文首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前局限性和未来机会。

2. 背景
2.1 历史
在计算机视觉（CV）领域，在深度学习革命之前，传统的图像生成技术依赖于像纹理合成 [5] 和纹理映射 [6] 这样的手工制作特征的方法。然而，这些方法在生成复杂和生动图像方面存在局限。

生成对抗网络（GANs）[7] 和变分自编码器（VAEs）[8] 的引入标志着一个重要的转折点，由于其在各种应用中的卓越能力。随后的发展，如流（flow）模型 [9] 和扩散模型 [10]，进一步提高了图像生成的细节和质量。人工智能生成内容（Artificial Intelligence Generated Content，AIGC）技术的最新进展使内容创作民主化，使用户能够通过简单的文本指令生成所需的内容 [11]。

在过去的十年中，生成式计算机视觉（CV）模型的发展已经采取了各种路径，如图 3 所示。这个领域在成功应用 Transformer 架构 [12]（如 BERT [13] 和 GPT [14] 所示）于自然语言处理后，开始明显转变。在计算机视觉领域，研究人员通过将 Transformer 架构与视觉组件结合，使其能够应用于下游 CV 任务，例如 Vision Transformer（ViT）[15] 和 Swin Transformer [16]。与 Transformer 的成功平行的，扩散模型在图像和视频生成领域也取得了显著进展 [10]。扩散模型提供了一个数学上合理的框架，用 U-Net [17] 将噪音转化为图像，其中 U-Net 通过学习在每一步预测和减轻噪音来促进此过程。

自 2021 年以来，人工智能的重点已经转向了能够解释人类指令的生成语言和视觉模型，被称为多模态模型。例如，CLIP [18] 是一个开创性的视觉语言模型，将 Transformer 架构与视觉元素结合，便于其在大量文本和图像数据集上进行训练。通过从一开始整合视觉和语言知识，CLIP 可以在多模型生成框架中作为图像编码器运作。另一个值得注意的例子是 Stable Diffusion [19]，这是一种多才多艺的文本到图像人工智能模型，以其适应性和易用性而受到赞誉。它采用 Transformer 架构和潜在扩散技术来解码文本输入并生成各种风格的图像，进一步展示了多模型人工智能的进展。

在 ChatGPT 于 2022 年 11 月发布后，我们见证了 2023 年商业文本到图像产品的出现，如 Stable Diffusion [19]、Midjourney [20]、DALL-E 3 [21]。这些工具使用户能够通过简单的文本提示生成高分辨率和高质量的新图像，展示了人工智能在创造性图像生成中的潜力。然而，由于视频的时间复杂性，从文本到图像到文本到视频的转变是具有挑战性的。尽管在工业和学术界进行了大量努力，大多数现有的视频生成工具，如 Pika [22] 和 Gen-2 [23]，仅限于生成几秒钟的短视频片段。在这个背景下，Sora 代表了一个重大突破，类似于 ChatGPT 在自然语言处理领域的影响。Sora 是第一个能够根据人类指令生成长达一分钟视频的模型，标志着生成式人工智能研究和开发的一个里程碑。为了方便访问视觉生成模型的最新进展，最近的工作已被编制并提供在附录和我们的 GitHub中。

2.2 先进概念
视觉模型的缩放定律。在对大型语言模型（LLMs）进行缩放定律的研究中，自然而然地会问，视觉模型的发展是否遵循类似的缩放定律。最近，Zhai 等人 [24] 表明，对于拥有足够训练数据的 ViT模型，性能-计算前沿大致遵循（饱和的）幂定律。紧随其后，谷歌研究 [25] 提出了一种高效稳定地训练 22B 参数 ViT 的方法。结果显示，可以通过使用冻结模型生成嵌入，然后在其上训练薄层（thin layers）来实现出色的性能。作为一种大型视觉模型（LVM），Sora 与这些缩放原则保持一致，在文本到视频生成中展现出几种新兴的能力。这一重要进展强调了