如何使用Sora？Sora小白教程

AI教程 2024-02-29

什么是Sora

Sora是OpenAI于2024年2月18日凌晨发布的新的文生视频大模型，名为 “ Sora ”。
从OpenAI在官网展示的Sora生成视频的效果来看，在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好！

特别是可以生成最长1分钟的视频！生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系，并且镜头丝滑可变。超过Gen-2、SVD-XT、Pika等主流产品，一出手就是王炸。

技术圈每年都会有一个概念火爆全网，从 21 世纪第一个十年以来，中文技术圈流行过的概念包括但不限于：移动开发、人工智能、区块链、低代码、元宇宙、NFT……

创投圈有句名言——“领先半步是先驱，领先一步是先烈”，低代码的热度已经凋零，元宇宙的风随着 Vision Pro 的发布做了个仰卧起坐，又躺了回去。只有以 ChatGPT 为代表的大语言模型，才真正把人工智能的热度重新拉了起来，推到了一个前所未有的高度——以前觉得 AGI 是痴人说梦，现在看发现自己可能才是坐井观天。

每个时代总会有所谓的大势，也总会有“好风凭借力，送我上青云”的机遇，总有人要起飞，为什么不是你？抛开炒作的喧嚣，回归技术的本源，先从了解、理解新兴技术开始。

01

背景

在国内外大多数 AI 厂商还在卷大语言模型之际，OpenAI 悄无声息地发布了文生视频（text-to-video，简称 t2v）模型 Sora [1]，仅仅几个视频 demo，就让整个 AI 圈子从惊讶到恐惧，惊讶于 Sora 生成的视频已经到达工业应用级别，恐惧于现有的 t2v 模型与 Sora 的差距竟然如此之大。

Sora 要解决的任务其实非常好理解，就是给定一段文本，模型需要根据该文本生成相应的视频，简单说就是 text-to-video（t2v）。t2v 本身并不是一个新问题，很多厂商都在研究 t2v 模型，只是当前的 t2v 模型生成的视频普遍质量较差，很难到达工业应用级别。在 Sora 出现前大家的普遍认知是：t2v 是一个很难的任务，工业级别 t2v 模型（或者说能真正实用的 t2v 模型）短时间内应该很难实现。然而，OpenAI 又又又一次打了所有人的脸，Sora 的发布意味着，这一天已经来了。

先看个 Sora 官方博客展示的 demo，当你向 Sora 输入：

Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

Prompt: A Chinese Lunar New Year celebration video with Chinese Dragon.

Sora 则根据该文本生成以下长达1分钟的高清视频。

播放这个 demo 展现了 Sora 至少有以下突破：

画质突破：视频非常高清，细节极其丰富；
帧率和连续性突破：视频帧率高、连续性好（无闪烁或明显的时序不一致）；
时长突破：相比之前 t2v 模型仅能生成几秒的时长，Sora 可以生成长达1分钟的视频，这是之前 t2v 模型不敢想象的；
物理规则理解突破：视频中物体的运动、光影等似乎都非常符合自然世界的物理规则，整个视频看上去都非常自然和逼真。

那么 OpenAI 到底用了什么魔法能让 Sora 如此惊艳？接下来我们通过 OpenAI 给出的 Sora 技术报告来解答。

PS：该技术报告非常简陋，技术细节几乎没有，只给了大致的建模方法。

02

Sora 原理解读

2.1 Sora 原理

但openai也承认，当前的Sora模型存在不足之处。即“它可能在准确模拟复杂场景的物理特性方面存在困难，可能不理解特定的因果关系实例。”

Sora最大的技术突破是什么？

目前，文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因，一直无法生成高质量的长视频。

Sora最大技术突破是，可以在保持质量的前提下，生成1分钟的视频，在业内非常罕见。这也再次展示了OpenAI在大模型领域超强的技术研发能力。

如果用一句话来描述 Sora 训练建模过程，可以是：将原始视频通过一个视觉编码器（Visual Encoder）编码到隐空间（Latent Space）形成隐时空块（Spacetime Latent Patches），这些隐时空块（结合 text 信息）通过 Transformer 做 Diffusion [2, 3, 4]的训练和生成，将生成的隐时空块再通过视觉解码器（Visual Decoder）解码到像素空间（Pixel Space）。所以整个过程就是：Visual Encoding -> Latent Diffusion with Diffusion Transformer (DiT) [4] -> Visual Decoding。

（1）Visual Encoding

这一步其实很好理解，就是通过一个变分自编码器（VAE）[5] 的 encoder 将高维的原始视频映射（压缩）到较为低维的隐空间（注意：不仅仅是空间上压缩了，时间上也进行了压缩），即得到该视频的低维隐空间特征（可以看成一个大的3D tensor），为了后续 Transformer 计算方便，将这个特征切成不重叠的 3D patches，再将这些 patches 拉平成一个 token 序列，这个 token 序列其实就是原始视频的表征了（即 Visual token 序列）。

（2）Latent Diffusion with DiT

在得到视觉表征（上述 Visual token 序列）后，Sora 借鉴了 DiT [4]，使用 Transformer 来做 Diffusion Model 的训练，使用 Transformer 的好处在于可以输入任意长度的token序列，这样就不再限制输入视频的尺寸和时长，并且模型很容易 scale up（OpenAI 表示这个我熟）。同时，因为 Sora 想解决 t2v 的问题，所以 Sora 会将 text 的表征以某种形式 condition 到 Visual tokens 上（Sora 技术报告中未披露，但后文我会分析最可能的实现方法）来约束生成。

在 Diffusion Transformer 的训练中，给定噪声输入（e.g., 噪声 patches）并 conditioned on text 特征，模型被训练去预测原始视频的 patches（预测过程又叫 denoising 过程，具体可以参考 DDPM [2] 中的训练算法），示意图如下：

（3）Visual Decoding

第（2）步中，Diffusion Transformer 可以生成的其实不是像素空间的视频，而是隐空间的视频表征（Denoised Patches），这些 patches reshape 成视频 3D 特征再经过第（1）步中的 VAE 的 decoder，就可以映射回像素空间，得到最后生成的视频。

2.2 Sora 的重要性质

（1）Sora 可以灵活地采用不同时长、分辨率和长宽比的视频

OpenAI 发现之前的方法大多采用固定尺寸的视频（比如 4s 的256x256视频）去训练模型，和现实中任意长度、长宽比有较大 gap，而采用原始尺寸的视频训练模型效果更好。得益于 Sora 采用的 Transformer 结构，Sora 可以输入任意多个 Visual Patches（初始为 Noise Patches），即可生成任意尺寸的视频。

（2）Sora 有很强的语言理解能力

训练 t2v 模型需要大量带有文本标注的视频，OpenAI 采用 DALL·E 3 [6] 中的 re-captioning 技术来解决。首先训练一个高质量的视频标注模型（captioner model），然后它为训练集中的所有视频生成文本字幕。另外，进一步利用 GPT 将视频标注模型生成的简短文本扩展成更长的文本有利于还利用 Sora 准确遵循用户文本提示生成高质量视频。

2.3 重要细节推测

Sora的技术报告细节匮乏，只提供了大致的模型构建方式，但我们仍可对一些实现细节进行推理或假设。

（1）关于Visual Encoder可能的构造：考虑到Sora在进行视觉编码时也对时间维度进行了压缩，我们可以推断Sora可能使用了从基础开始训练的3D卷积版本的变分自编码器（VAE）。这与以前的工作不同，Sora并未简单地采用预先训练好的Stable Diffusion（SD）[3] 的2D卷积版VAE。现有的SD的VAE编码器在压缩视频时，最大的问题在于没有对时间维度进行下采样，SD的VAE需要承担将原始稀疏的数据压缩到紧凑的潜在领域，然后进行扩散过程，这大大提高了训练和推理的效率。然而，直接使用2D VAE缺乏在时间维度的压缩，使得其对应的潜在领域不够紧凑。实际上，这是一个历史遗留问题，大多数研究工作选择直接使用SD的预训练权重（Unet部分），保留了2D VAE，这是由计算能力等因素所影响。

（2）关于在视觉编码中如何将视频片段展平成token序列？我们可以推测这大概是借鉴了DiT的方法，首先将这些片段展平，然后通过一个线性层，将片段嵌入成tokens。

（3）在扩散过程中如何引入文本信息？我们可以推测这可能还是借鉴了DiT和SD的方法，在每个Transformer block中，将视觉tokens视为查询，将文本tokens作为键和值，进行交叉注意，不断地依赖于文本tokens。

2.4 尚未披露关键信息

（1）模型考量：考虑模型的详细架构、参数的总量，以及关键参数（例如，修补区域大小，令牌数量等）。

（2）数据收集：使用了何种数据？规模大小如何？

（3）资源投入：计算力的使用情况是怎样的？训练过程持续了多长时间？

（4）视频处理：对于具有高帧率、时长较长和高分辨率的视频，如何进行处理？当前主流的视频生成模型大多采用级联结构，也就是首先生成低分辨率和低帧率的视频，然后在时间和空间维度上进行逐渐增强。那么，Sora是否直接一次性输出其展示的结果，如果是这样，那会有多少令牌呢？

（5）运动问题的解决：目前的视频生成模型生成的运动效果普遍不太理想，例如“人行走”，大部分模型无法生成连贯、长时间和合理的行走过程。然而，Sora生成的结果在连贯性和合理性方面相比之前的模型有着显著的优势。那么，到底是什么推动了这样的结果呢？是因为模型规模的扩大吗？需要扩大到什么规模？还是因为数据的收集和清洗工作呢？又应该达到什么程度呢？

2.5 Sora 的应用

影像创造：利用文字，用户有能力产生出高品质的影像内容；
影像延展：在已有的视频或图像基础上，具备向前或向后拓展影像的能力；
影像对影像编辑：举例来说，借由SDEdit [7] 在 Sora 上的运用，可以简易地转变原始影像的风格；
影像融合/过度/转场：有能力将两段影像巧妙地结合，通过 Sora 在两个输入影像间逐渐插值，从而在完全不同主题和场景构成的影像间创建无缝的过度；
文字生成图像：图像可以被视为视频的单一帧，因此，Sora 也具备实现文字生成图像的功能。

2.6 Sora 的局限性

"Sora"作为一款模拟器，尽管已经表现出了一些优异的性能，但其局限性仍然明显。以物理过程的模拟为例，基础的相互影响，如玻璃碎裂等，Sora并未能准确地再现。此外，对于其他的交互行为，如进食，Sora也不能始终预测得准确无误。我们在登陆页面详细列举了模型中常见的故障模式，比如在长时间样本中的不连贯性以及物体的突然出现等。

总结起来，Sora主要存在以下两方面问题：

（1）对于世界物理法则的理解尚存欠缺；

（2）在生成长视频时，常出现内容不连贯或者物体无故出现的情况。

03

Sora 行业的影响

在Sora的面世后，国内的创新投资领域敏感地认识到了其可能对业界带来的挑战和影响。实际上，OpenAI在早先的开发者大会上公布的AI Agent功能，已经预示了众多Agent领域初创公司的“终结”。

参考阅读：OpenAI震动科技界！无需编程即可构建Assistants API，技术原理深入解析

这次Sora的推出，对于AI视频产业来说无异于一声惊雷，从积极的角度看，未来的潜力十分巨大，但从落后者的角度看，也在一定程度上缓解了领域创业者的紧张——反正也赶不上了吧？

除了显眼的AI视频行业，传统影视公司、游戏公司以及广告营销类行业，也可能面临着巨大的挑战和机遇。

短视频内容创作或许将步入新的纪元：Sora能够提供丰满的视频素材；

视频剪辑和编辑：Sora拥有相关的应用技能；

更真实的数字化人物：用户可以获得自己的“梦想形象”；

娱乐性：一键从图像生成视频；

游戏行业：游戏引擎面临Sora的挑战；

图形学：未来可能消失。

04

Sora 成功的关键

大规模培训：这个观点不容忽视。采用大型模型、大数据集和大规模计算能力，这是openAI的基本行动策略。
勇于颠覆常态，嗤之以鼻的刷分：在以前的工作中，我们基本上都使用SD预训练的视觉编码器，尽管我们知道这种编码器在某些方面可能不太合理（例如，只能处理固定大小的输入），但没有人真的去重新训练一个更合理的编码器（当然，更可能的原因是计算能力的限制）。然而，openAI在发现问题后，会利用其强大的计算能力来解决问题（很有可能是重新训练视觉编码器）。
实事求是+超凡的感知：自回归建模方式在语言模型学习中取得了巨大的成功，GPT系列也源于openAI，但这并不意味着“Autoregressive is everything”。Sora向大家展示了，生成视频并不需要采用自回归，直接使用3D建模+Transformer编码器结构就可以。
AGI理念的全面贯彻：Sam Altman无疑是一位具有宏大视野的人物，他的最终目标是实现AGI，我想整个openAI都会遵循这种理念，无论是ChatGPT还是Sora，我们都可以看到AGI的影子。

05

使用Sora

不可否认，技术的变革是把双刃剑，在关注应用前景的同时也有不少人担忧会被AI抢了饭碗。

目前最容易受到影响的或许是影视行业的从业者。例如视频剪辑师、后期制作这类岗位，视频模型Sora能够自动或半自动地生成视频，这可能会导致传统的视频制作和编辑职位的需求下降。后期制作包括剪辑、特效、音效等环节，这些工作也可以通过AI技术进行自动化或半自动化处理。

但是，Sora 的出现让世界看到了人工智能的无限可能。2024年第一块坚实的里程碑落下了，带给人类的依旧是希望大于绝望。因此不一定会造成失业潮。相反，它可能促使视频行业朝着更高端、更创新的方向发展。

无论是此前的 ChatGPT 还是现在的 Sora，如果你不去了解它的知识从而转化为自身的价值，你或许就是最容易被替代的那个人。

Sora 在日语中是“天空”的意思，引申含义还有“自由”。Sora 官方介绍页里就有无数象征自由的纸飞机在无序地探索自由，你也应该乘上想象的翅膀，探索你的知识财富与精神自由～

当前如何使用Sora ？

目前，Sora仅向特定的用户群体开放，包括能够评估风险并识别潜在问题（如错误信息、偏见和仇恨内容）的专家，他们被称为“红队成员”。

此外，Sora也向一些视觉艺术家、设计师和电影制作人开放，这是为了获得反馈，以改进平台，使其对创意专业人士更有用。这些用户将获得模型的早期访问权限，并且目前对这些用户而言，Sora是免费的。

对于普通用户来说，由于OpenAI尚未公布Sora对公众的开放计划和具体使用细节，因此当前普通用户无法直接使用Sora生成视频。

Sora Sora使用教程

Sora惊艳亮相，AI能否重塑人类视觉体验？

2024-03-01

Sora助推OpenAI估值飙升275%！跃升至全球第三大独角兽

2024-02-22

Sora来了,会砸掉谁的饭碗? OpenAI同类可用的AI视频生成应用有哪些

2024-02-22

如何使用Sora？Sora小白教程

什么是Sora

01

02

Sora最大的技术突破是什么？

03

04

05

无论是此前的 ChatGPT 还是现在的 Sora，如果你不去了解它的知识从而转化为自身的价值，你或许就是最容易被替代的那个人。

当前如何使用Sora ？

LangSmith官网体验入口 LLM AI应用开发平台如何使用教程指南

如何用Ai绘制海报，Midjourney海报关键词咒语合集

相关文章

最新文章

热门工具

AI工具导航

如何使用Sora？Sora小白教程

什么是Sora

01

02

Sora最大的技术突破是什么？

03

04

05

无论是此前的 ChatGPT 还是现在的 Sora，如果你不去了解它的知识从而转化为自身的价值，你或许就是最容易被替代的那个人。

当前如何使用Sora ？

LangSmith官网体验入口 LLM AI应用开发平台如何使用教程指南

如何用Ai绘制海报，Midjourney海报关键词咒语合集

相关文章

最新文章

热门工具