Sora 2 介绍

OpenAI 推出了其下一代视频和音频生成系统 Sora 2，以及新的 Sora 应用。Sora 2 在处理物理交互、生成更长且更连贯的叙事，以及将音频直接与视频集成方面，展示了显著的进步。“Cameo”功能是其亮点，它使用户能够将自己或他人放置到 AI 生成的场景中。Sora 应用提供了一个社交媒体风格的界面，旨在培养一种新的基于视频的沟通形式，并强调用户生成的 AI 内容。该平台整合了强大的安全措施，包括 Cameo 的身份验证机制、内容审核，以及使用 C2PA 标准的可见水印，以清晰地标记 AI 生成的内容。OpenAI 计划推出 API 和创作工具，将该模型的实用性扩展到应用之外，最初将通过邀请系统在美国和加拿大推出 iOS 应用。

内容概要

OpenAI 推出了其下一代视频和音频生成系统 Sora 2，以及全新的 Sora 应用。视频中，Bill Peebles、Rohan Sahai 和 Thomas Dimson 演示了 Sora 2 在物理交互、长叙事可控性方面的增强功能，以及允许用户将自己或他人置入 AI 生成视频中的开创性功能 Cameo。该团队还讨论了 Sora 应用类似社交媒体的界面、安全特性，以及未来的 API 和创作者工具计划。

Sora 的演进

一年前，Sora 1 重新定义了动态影像的可能性。今天，我们正式发布由全新 Sora 2 驱动的 Sora 应用。

这是有史以来最强大的想象力引擎，并且集成了众多新功能。

深入了解 Sora 2 的功能

Bill: 欢迎回到现实。我是 Bill，Sora 团队的负责人。

Rohan: 我是 Rohan，负责 Sora 的产品团队。

Thomas: 我是 Thomas，负责 Sora 的工程团队。早在 2024 年 2 月，我们推出了 Sora 1。在内部，我们将其视为视频生成领域的“GPT-1 时刻”。那是视频生成技术首次让人感觉初见成效的时刻，一些简单的特性，如物体恒存性，也开始通过扩大预训练规模而涌现。

Bill: 从那时起，Sora 研究团队一直致力于实现模型能力的下一次阶跃式提升。今天，我们非常激动地向大家展示 Sora 2。Sora 2 是我们的旗舰级视频和音频生成系统，刚才大家已经初步领略了它的能力。

当你亲手体验这款模型时，首先会注意到的是，它在物理交互方面的智能程度远超以往任何视频生成系统。过去，像奥运会体操或尾波滑水后空翻这类极其复杂的动态效果，都非常难以实现。

Sora 2 在处理这类复杂碰撞和模拟动态方面表现得更加稳健，其效果非常自然。此外，团队还做了大量工作来提升 Sora 2 相较于前代模型的可控性。

通常情况下，使用视频生成系统需要以“逐个镜头”的方式进行，很难在一次生成中构建包含多个镜头的长篇叙事。Sora 2 在这方面表现得更好，能够一次性讲述更长、更连贯的故事。

当然，这次最大的亮点是音频生成。这是首个能同时生成视频和音频的 Sora 模型，而且它是一个非常通用的系统，可以生成多种语言、多个说话者的对话，也可以生成音效乃至环境音景。

我们非常期待大家能用上这款模型，但有一个功能是我们最为之兴奋的，那就是全新的 Cameo 功能，这是 Sora 2 独有的。它的工作原理是，通过观察一小段关于我、Rohan 或 Thomas 的视频片段，模型就能将这个人置入任何由 Sora 生成的环境中。

刚才的视频里，大家已经看到了一些我和 Sam 的例子，但这其实是一项从我们的世界模拟模型中涌现出的通用能力。

其原理在于，模型通过观察任何一个片段——不仅限于人类，甚至可以是宠物或物体——就能对其进行深度理解，然后像处理文本一样，将其注入到任何提示词中。

Sora 应用及其用户体验介绍

Bill: 我们很高兴能让大家用上这款模型，但我们更想展示的是，在产品层面我们做了哪些工作来充分释放模型的魔力。在早期开发这些功能时，Sora 的研究人员就觉得这是一种全新的交流方式。

最初的交流方式是短信，后来发展为表情符号或语音备忘录，而 Cameo 功能的出现，让我们感觉交流正在向一种全新的、基于视频的媒介演进。随着时间的推移，我们愈发清楚地认识到，需要开发一个新的产品界面来承载模型所有这些强大的功能，并让尽可能多的人能够使用它。

Rohan 和 Thomas 在这方面做了很多出色的工作，下面就交给他们来详细介绍。

Rohan: 好的。我知道大家都很想看看这款应用。在进入之前，我先简单介绍一下背景。你将看到一个非常熟悉的界面，如果你用过社交媒体的话。应用里有身份的概念，你可以建立个人资料，关注你认识的人。但其中所有的内容都是由 AI 生成的。这些内容不是由机器人发布的，而是由人类用户发布的，但它们都是 AI 生成的。

这带来了一种非常有趣的感觉，与我用过的其他任何产品都截然不同，真的像是一种新媒介。当你浏览信息流 (feed) 时，会看到我们 Sora 团队在其中获得的各种乐趣。

随着我们不断使用这款产品，一些“梗” (meme) 也应运而生。比如我们永远需要更多的 GPU 来满足日益增长的需求。

Thomas: 还有一个关于番茄酱的梗，不知为何我一直在喝番茄酱，这好像是真事改编的，虽然我还没搞懂，但确实有这么个视频。当然，还有一些关于香水和其他事物的有趣创作，用不同方式来探索模型的极限。

Rohan: Rohan，不如你直接来演示一下吧。

Thomas: 好的，我们进入应用看看。好了，我点击 Sora 应用，然后我们就会进入信息流界面。

Rohan: 没错。Sora 目前还没有营收。如果你公布了营收，人们就会问具体是多少，而这个数字永远不会足够多。一家曾被视为百倍或千倍增长的公司，可能会突然变成两倍增长的“差等生”。但如果你没有营收，就可以说自己处于“前营收阶段”。我们的应用确实是前营收阶段。

这里有几个很酷的地方值得注意。这是一个 Cameo 功能的例子，但实际上是两个 Cameo 的结合。视频里是我和 Sam 在同一个场景中交谈。你会注意到许多细节让这些视频感觉非常真实。

镜头在两人之间来回切换，我和 Sam 的手势、面部表情都非常自然，唇形同步也精准地匹配了对话内容。所有这些都是 Sora 2 的新功能。

好了，我们继续看。看这个，我要关灯了。哇，等一下，我怎么变成卡通人物了？这不应该发生啊，灯还亮着呢。

不过这还挺酷的。我特别喜欢这个。我认为 Sora 2 的动态范围非常惊人。许多以前的模型似乎都倾向于一种单一的美学风格，而 Sora 的风格范围则非常广泛多样，这太棒了。

我迫不及待地想看到互联网的创造力被这个工具释放出来。我们继续浏览。又上新闻了，上个月那个男人还在不停地吃麦当劳的番茄酱。

Thomas: 直接从……听着，重点不是番茄酱，而是那种体验。

Rohan: 健康专家对此表示担忧。他又上新闻了，就是去年的那个人。他感觉自己活了过来，就像一幅会动的画。每一个品种都承载着一个故事，靠近些，我们或许能听到它们的声音。我们再看看。

这个 Cameo 功能非常通用。就像我说的，它不仅能用于人类，也能用于宠物。这是我的宠物狗 Rocket，被渲染成了动漫风格。

正如 Rohan 所说，这个模型在风格范围上非常通用，可以涵盖从写实到动漫以及介于两者之间的任何风格。

Cameo 功能的细节与安全性

Bill: 和 Sora 1 一样，生成视频可能需要几分钟时间。在等待的过程中，我来详细介绍一下我们的 Cameo 功能。你可能想知道如何设置它、权限是怎样的，以及我们如何确保其安全性。

我们进入这里，这是我的个人资料页，我点击“编辑 Cameo”。在这个界面，你会看到一些 Cameo 设置。在介绍设置之前，我想先谈谈如何上传你的 Cameo 素材。

我点击“重新拍摄”。在这个流程中，系统会要求你录制一段动态的音频提示。我们会给你一个随机的音频挑战，然后进行活体检测，要求你按指示方向转动头部。这些数据会被发送到我们的系统进行大量验证，以确保没有人冒充你，并且确认网络上的这个身份就是你本人。

完成这个步骤且你的 Cameo 通过审批后，你就可以设置谁能使用它。你可以选择“仅自己可用”、“我批准的人”、“互关好友”或“所有人”。你对自己在这个网络上的形象拥有完全的控制权。

任何人都不可能在未经你明确许可并完成此 Cameo 流程的情况下生成你的形象，这对我们来说是一条非常重要的原则。

另外几点说明，你可以引导模型如何呈现你的形象。模型虽然强大，但并非完美。有时它可能会产生一些“幻觉”，比如给我穿上紧身牛仔裤或赋予我奇怪的口音。

所以我可以进入 Cameo 偏好设置，在生成视频时进行调整，我建议每个设置此功能的用户都这样做。未来我们还会增加更多高级流程，让你拥有更多控制权。

目前，我们已经提供了一些方式来实现这一点。你也可以用它来制造很多乐趣，我们团队就玩得很开心，比如给自己加上有趣的帽子或奇怪的配饰。

Rowan 总是戴着一条金链子，你稍后会看到。你可以用这些指令以各种有趣的方式引导模型。

另一件对我们至关重要的事情，是关于个人身份所有权的概念。任何经你授权、使用你的 Cameo 创作的内容，你都拥有完全的权利，这意味着你可以随时删除它。

Rohan: 你被视为该视频的所有者之一。是的，完全正确。

Remix 功能与创作可能性

Rohan: 好的，我们回到信息流，再看几个有趣的例子。Sora 2，Sora 出品的新款香水。清新、纯净、 unapologetic。我虽然不用香水，但如果是 Sora 主题的，我会考虑一下。“可能性” (Possibility)。

这个应用和模型我最喜欢的功能之一，同时我认为也是这项技术独有的能力，就是可以通过“Remix”功能，让你能够立即参与到一个潮流、一个故事情节、或者某个创作者正在构建的“宇宙”中。

当我看到这个视频，我受到了启发，想创作一个我自己的版本。我只需点击这里的 Remix 按钮。

Thomas: Sora 出品的新款香水……

Rohan: 我可以点击 Remix 按钮，然后说：“把这个做成一则广告。”

Thomas: 哦，为某个产品做广告？有什么想法吗？

Rohan: 礼帽。

Thomas: 一顶带有巨大羽毛的礼帽。不错。

Rohan: 好的。然后，我点击生成，Sora 就会开始为我的创作进行处理。在此期间，我们来看看这个香水视频的其他 Remix 版本。

Rohan: Sora 2，Sora 出品的新款牙膏。清新、纯净、unapologetic，为你选择成为的任何人。Sora 2，“可能性的微笑” (Smile of possibility)。

Thomas: 我在现实生活中不会说韩语，但在 Sora 里，一切皆有可能。

Rohan: 好了，我们继续看。大家看我的豚跳 (kickflip)。这是我们的同事 Minia 在做豚跳。这个物理效果太惊人了，我在其他任何视频生成模型中都没见过这样的效果。

我自己尝试做这个动作已经快 20 年了，还在努力中。这真的是模型物理模拟能力的一次绝佳展示。

Rohan: 梦想。

Thomas: Rohan 的冠军点。

Rohan: 没错。我要感谢那些“黑子”，是他们给了我动力。你们可以看到我戴的金链子。如果 Thomas 要生成一个视频，他也会在不知不觉中给我加上一条金链子，这也是这个功能有趣的地方。

Rohan: 这舞姿，太搞笑了。

Rohan: 女士们先生们，请掌声欢迎。最后，这个风格范围真的很广。下载 Sora 应用吧，我们很快会告诉大家如何下载。好了，我们去看看我们生成的视频，可能还在处理中……哦，Sam 的那个已经好了。

Bill: 这场直播进行得太顺利了！加油！我太兴奋了，这太棒了，我们做得非常成功！

Rohan: 加油！感谢大家，这太棒了。

Bill: 嘿，谢谢，谢谢。好了，我想另一个视频还在生成中。在等待的时候，我把时间交给 Thomas，让他多谈谈我们关于这个应用的设计理念。

Sora 应用背后的理念

Thomas: 谢谢 Rohan。我想承认，最初在规划这个项目时，我们并不确定这是否是公司想要全力投入的方向。

我们都对一个完全由 AI 生成的信息流这个想法持怀疑态度，不确定它会带来什么样的感觉，以及是否会让人与真实的人际联系脱节。

但是，当我们开始使用 Cameo 功能后，感觉真的完全不同了。它像一种新的媒介，一种与朋友联系的新方式，甚至连我自己都感到惊讶。

当我滚动信息流并思考“哦，我能怎样在这个基础上进行二次创作？”或者“等等，我能把自己放进那个视频里吗？”时，这是一种完全不同的操作模式。

所以，我对于这个产品在团队内部促进联系的方式感到非常满意。

我们注意到，随着时间的推移，许多社交媒体普遍从关注朋友和家庭的联系，转向了其他方向。

我们相信 Sora 可以在这方面有所作为，因为它让创作变得如此简单，是以往任何时候都无法想象的。因此，在信息流中，我们会优先推荐来自你社交圈的内容。

你随时可以看到一个“关注”页面，那里只显示你关注的人发布的内容。我们还推出了一些新功能，让你对自己的信息流有更多的控制权。

在信息流顶部会有一个测试版功能，你可以选择想看的内容类型。比如，如果你想放松一下，就可以选择“放松”。

Bill: 动物。

Thomas: 动物。我们总能从中找到乐趣，只看可爱的动物。这样，你就可以引导模型向你展示与你当前心境相符的内容。

我们还会重点优化信息流，鼓励你去创作，去激发你的灵感，而不仅仅是漫无目的地刷视频。

安全性与内容审核

Rohan: 好的，我再补充一下我们在这个网络上是如何处理安全和内容审核的。显然，正如 Thomas 所说，我们内部对此感到惊喜。

我们曾对一个纯 AI 生成的信息流持怀疑态度，但后来却感受到了其中的人情味。我们认为这是最佳的产品形态，但我们希望在放大这种形态优点的同时，也减轻通常伴随短视频而来的负面影响。

为此，我们采取了多项措施。首先是针对 18 岁以下的用户，我们有专门的政策。默认情况下没有无限滚动，使用一段时间后会有冷却期和中断提示。

即使是成年用户，如果你长时间滚动，当我们认为你可能陷入了“沉迷式浏览” (doom scroll) 循环时，也会提醒你去进行创作，因为我们认为创作是件有趣的事，并且在这个应用上通常能带来很好的体验。

另外一件很重要的事是，我们希望这些内容在离开我们平台时，能被清晰地标记为 AI 生成。我们有多种来源追溯技术。首先，当你从我们的应用导出视频时，视频上会有可见的水印。

所以如果这些视频在其他网络上传播，你会看到 Sora 的标志。我们内部也有技术可以追踪我们在互联网上看到的生成内容，确保能追溯到 Sora。我们还使用了 C2PA 标准。

此外，在 Sora 1 和图像生成技术已有的出色审核机制基础上，我们还部署了推理模型，以确保在这个网络上制造有害内容变得非常困难。

尤其是在 Cameo 功能中，确保没有人能创作色情或暴力内容是至关重要的。我们设置的各种安全防护措施都保证了这一点，这非常了不起。

当然，我们起初在审核方面会采取比较保守的策略，你可能会遇到过度屏蔽的情况，我们提前表示歉意。关于这个，团队内部已经有梗了，大家都在调侃我们过度屏蔽。

我们正在努力寻找用户自由与防范不良行为者之间的平衡，并且会持续优化。

未来计划与发布安排

Rohan: 最后，在我把时间交还给 Bill 之前，我想谈谈我们将要部署的其他几项服务。我们现有的网页应用 sora.com 将会更新到这个新模型。

界面会有一些小改动，但我们也会保留一些很棒的功能，比如即将推出的“故事板” (storyboard) 功能，大约一两周后上线，它能让你以逐个镜头的方式精准控制模型如何创建场景。

正如 Bill 所说，这个模型具有极高的可控性和强大能力。我们希望大力投入开发优秀的创作者工具，让大家能为我们的网络创作精彩的内容。我们也会在未来几周内推出 API。

对于那些我们可能不想自己构建精细编辑功能的长尾用例，其他人可以通过 API 实现惊人的创作。比如，用户可能想把 Sora 2 集成到他们自己的视频编辑器中，现在这已成为可能。

Bill: 好的，我来谈谈我们的发布计划。就是今天，从今天下午晚些时候开始，你就可以在 App Store 下载 Sora 的 iOS 应用。

我们首先只在 iOS 平台上推出。团队正在努力开发安卓版本，请大家耐心等待。我们最初只在美国和加拿大地区上线，并采用邀请制。

正如我们所说，我们认为和朋友一起体验这个应用非常重要。它最好被当作一种社交工具，甚至是一种新的消息传递方式来体验。

所以，当你通过等待列表获得资格时——下载应用后你会收到推送通知——你将自动获得四个邀请码，可以分享给你的朋友，确保你们能一起加入。

我们非常期待大家能用上这些模型。我们在 2023 年初启动了 Sora 研究项目，旨在构建能深度理解物理世界的 AI 系统。

我们认为，这是实现通用人工智能 (AGI) 的一项至关重要的能力。在此过程中，我们训练了许多我们认为能给世界带来巨大乐趣和欢乐的模型。

所以，我们非常期待看到大家最终会用这个应用创作出什么样的作品。我们 Sora 上见。

{{userData.name}}已认证

内容概要

目录

Sora 的演进

深入了解 Sora 2 的功能

Sora 应用及其用户体验介绍

Cameo 功能的细节与安全性

Remix 功能与创作可能性

Sora 应用背后的理念

安全性与内容审核

未来计划与发布安排

AI 智能体的上下文工程：构建 Manus 的经验教训

LangChain 和 Manus 的 AI 智能体上下文工程实践

深度｜OpenAI Agent 团队：未来属于单一的、无所不知的超级 Agent，而不是功能割裂的工具集合，所有技能都存在着正向迁移

从印刷术到 AI 编程：每一次 “垃圾泛滥”，都是创新的前奏 |【经纬低调分享】

ElevenLabs 首席执行官：为什么语音是下一代人工智能界面

Update your Kotlin projects for Android Gradle Plugin 9.0 | The Kotlin Blog

别搞混了！RewardModel≠Critic：PPO 中的双重评估机制解析

用思维导图逐步拆解 C 端设计技能树