Sora 2 介绍




内容概要

OpenAI 推出了其下一代视频和音频生成系统 Sora 2,以及全新的 Sora 应用。视频中,Bill Peebles、Rohan Sahai 和 Thomas Dimson 演示了 Sora 2 在物理交互、长叙事可控性方面的增强功能,以及允许用户将自己或他人置入 AI 生成视频中的开创性功能 Cameo。该团队还讨论了 Sora 应用类似社交媒体的界面、安全特性,以及未来的 API 和创作者工具计划。

目录

  • Sora 的演进

  • 深入了解 Sora 2 的功能

  • Sora 应用及其用户体验介绍

  • Cameo 功能的细节与安全性

  • Remix 功能与创作可能性

  • Sora 应用背后的理念

  • 安全性与内容审核

  • 未来计划与发布安排

Sora 的演进

一年前,Sora 1 重新定义了动态影像的可能性。今天,我们正式发布由全新 Sora 2 驱动的 Sora 应用。

这是有史以来最强大的想象力引擎,并且集成了众多新功能。

深入了解 Sora 2 的功能

Bill: 欢迎回到现实。我是 Bill,Sora 团队的负责人。

Rohan: 我是 Rohan,负责 Sora 的产品团队。

Thomas: 我是 Thomas,负责 Sora 的工程团队。早在 2024 年 2 月,我们推出了 Sora 1。在内部,我们将其视为视频生成领域的“GPT-1 时刻”。那是视频生成技术首次让人感觉初见成效的时刻,一些简单的特性,如物体恒存性,也开始通过扩大预训练规模而涌现。

Bill: 从那时起,Sora 研究团队一直致力于实现模型能力的下一次阶跃式提升。今天,我们非常激动地向大家展示 Sora 2。Sora 2 是我们的旗舰级视频和音频生成系统,刚才大家已经初步领略了它的能力。

当你亲手体验这款模型时,首先会注意到的是,它在物理交互方面的智能程度远超以往任何视频生成系统。过去,像奥运会体操或尾波滑水后空翻这类极其复杂的动态效果,都非常难以实现。

Sora 2 在处理这类复杂碰撞和模拟动态方面表现得更加稳健,其效果非常自然。此外,团队还做了大量工作来提升 Sora 2 相较于前代模型的可控性。

通常情况下,使用视频生成系统需要以“逐个镜头”的方式进行,很难在一次生成中构建包含多个镜头的长篇叙事。Sora 2 在这方面表现得更好,能够一次性讲述更长、更连贯的故事。

当然,这次最大的亮点是音频生成。这是首个能同时生成视频和音频的 Sora 模型,而且它是一个非常通用的系统,可以生成多种语言、多个说话者的对话,也可以生成音效乃至环境音景。

我们非常期待大家能用上这款模型,但有一个功能是我们最为之兴奋的,那就是全新的 Cameo 功能,这是 Sora 2 独有的。它的工作原理是,通过观察一小段关于我、Rohan 或 Thomas 的视频片段,模型就能将这个人置入任何由 Sora 生成的环境中。

刚才的视频里,大家已经看到了一些我和 Sam 的例子,但这其实是一项从我们的世界模拟模型中涌现出的通用能力。

其原理在于,模型通过观察任何一个片段——不仅限于人类,甚至可以是宠物或物体——就能对其进行深度理解,然后像处理文本一样,将其注入到任何提示词中。

Sora 应用及其用户体验介绍

Bill: 我们很高兴能让大家用上这款模型,但我们更想展示的是,在产品层面我们做了哪些工作来充分释放模型的魔力。在早期开发这些功能时,Sora 的研究人员就觉得这是一种全新的交流方式。

最初的交流方式是短信,后来发展为表情符号或语音备忘录,而 Cameo 功能的出现,让我们感觉交流正在向一种全新的、基于视频的媒介演进。随着时间的推移,我们愈发清楚地认识到,需要开发一个新的产品界面来承载模型所有这些强大的功能,并让尽可能多的人能够使用它。

Rohan 和 Thomas 在这方面做了很多出色的工作,下面就交给他们来详细介绍。

Rohan: 好的。我知道大家都很想看看这款应用。在进入之前,我先简单介绍一下背景。你将看到一个非常熟悉的界面,如果你用过社交媒体的话。应用里有身份的概念,你可以建立个人资料,关注你认识的人。但其中所有的内容都是由 AI 生成的。这些内容不是由机器人发布的,而是由人类用户发布的,但它们都是 AI 生成的。

这带来了一种非常有趣的感觉,与我用过的其他任何产品都截然不同,真的像是一种新媒介。当你浏览信息流 (feed) 时,会看到我们 Sora 团队在其中获得的各种乐趣。

随着我们不断使用这款产品,一些“梗” (meme) 也应运而生。比如我们永远需要更多的 GPU 来满足日益增长的需求。

Thomas: 还有一个关于番茄酱的梗,不知为何我一直在喝番茄酱,这好像是真事改编的,虽然我还没搞懂,但确实有这么个视频。当然,还有一些关于香水和其他事物的有趣创作,用不同方式来探索模型的极限。

Rohan: Rohan,不如你直接来演示一下吧。

Thomas: 好的,我们进入应用看看。好了,我点击 Sora 应用,然后我们就会进入信息流界面。

Rohan: 没错。Sora 目前还没有营收。如果你公布了营收,人们就会问具体是多少,而这个数字永远不会足够多。一家曾被视为百倍或千倍增长的公司,可能会突然变成两倍增长的“差等生”。但如果你没有营收,就可以说自己处于“前营收阶段”。我们的应用确实是前营收阶段。

这里有几个很酷的地方值得注意。这是一个 Cameo 功能的例子,但实际上是两个 Cameo 的结合。视频里是我和 Sam 在同一个场景中交谈。你会注意到许多细节让这些视频感觉非常真实。

镜头在两人之间来回切换,我和 Sam 的手势、面部表情都非常自然,唇形同步也精准地匹配了对话内容。所有这些都是 Sora 2 的新功能。

好了,我们继续看。看这个,我要关灯了。哇,等一下,我怎么变成卡通人物了?这不应该发生啊,灯还亮着呢。

不过这还挺酷的。我特别喜欢这个。我认为 Sora 2 的动态范围非常惊人。许多以前的模型似乎都倾向于一种单一的美学风格,而 Sora 的风格范围则非常广泛多样,这太棒了。

我迫不及待地想看到互联网的创造力被这个工具释放出来。我们继续浏览。又上新闻了,上个月那个男人还在不停地吃麦当劳的番茄酱。

Thomas: 直接从……听着,重点不是番茄酱,而是那种体验。

Rohan: 健康专家对此表示担忧。他又上新闻了,就是去年的那个人。他感觉自己活了过来,就像一幅会动的画。每一个品种都承载着一个故事,靠近些,我们或许能听到它们的声音。我们再看看。

这个 Cameo 功能非常通用。就像我说的,它不仅能用于人类,也能用于宠物。这是我的宠物狗 Rocket,被渲染成了动漫风格。

正如 Rohan 所说,这个模型在风格范围上非常通用,可以涵盖从写实到动漫以及介于两者之间的任何风格。

Cameo 功能的细节与安全性

Bill: 和 Sora 1 一样,生成视频可能需要几分钟时间。在等待的过程中,我来详细介绍一下我们的 Cameo 功能。你可能想知道如何设置它、权限是怎样的,以及我们如何确保其安全性。

我们进入这里,这是我的个人资料页,我点击“编辑 Cameo”。在这个界面,你会看到一些 Cameo 设置。在介绍设置之前,我想先谈谈如何上传你的 Cameo 素材。

我点击“重新拍摄”。在这个流程中,系统会要求你录制一段动态的音频提示。我们会给你一个随机的音频挑战,然后进行活体检测,要求你按指示方向转动头部。这些数据会被发送到我们的系统进行大量验证,以确保没有人冒充你,并且确认网络上的这个身份就是你本人。

完成这个步骤且你的 Cameo 通过审批后,你就可以设置谁能使用它。你可以选择“仅自己可用”、“我批准的人”、“互关好友”或“所有人”。你对自己在这个网络上的形象拥有完全的控制权。

任何人都不可能在未经你明确许可并完成此 Cameo 流程的情况下生成你的形象,这对我们来说是一条非常重要的原则。

另外几点说明,你可以引导模型如何呈现你的形象。模型虽然强大,但并非完美。有时它可能会产生一些“幻觉”,比如给我穿上紧身牛仔裤或赋予我奇怪的口音。

所以我可以进入 Cameo 偏好设置,在生成视频时进行调整,我建议每个设置此功能的用户都这样做。未来我们还会增加更多高级流程,让你拥有更多控制权。

目前,我们已经提供了一些方式来实现这一点。你也可以用它来制造很多乐趣,我们团队就玩得很开心,比如给自己加上有趣的帽子或奇怪的配饰。

Rowan 总是戴着一条金链子,你稍后会看到。你可以用这些指令以各种有趣的方式引导模型。

另一件对我们至关重要的事情,是关于个人身份所有权的概念。任何经你授权、使用你的 Cameo 创作的内容,你都拥有完全的权利,这意味着你可以随时删除它。

Rohan: 你被视为该视频的所有者之一。是的,完全正确。

Remix 功能与创作可能性

Rohan: 好的,我们回到信息流,再看几个有趣的例子。Sora 2,Sora 出品的新款香水。清新、纯净、 unapologetic。我虽然不用香水,但如果是 Sora 主题的,我会考虑一下。“可能性” (Possibility)。

这个应用和模型我最喜欢的功能之一,同时我认为也是这项技术独有的能力,就是可以通过“Remix”功能,让你能够立即参与到一个潮流、一个故事情节、或者某个创作者正在构建的“宇宙”中。

当我看到这个视频,我受到了启发,想创作一个我自己的版本。我只需点击这里的 Remix 按钮。

Thomas: Sora 出品的新款香水……

Rohan: 我可以点击 Remix 按钮,然后说:“把这个做成一则广告。”

Thomas: 哦,为某个产品做广告?有什么想法吗?

Rohan: 礼帽。

Thomas: 一顶带有巨大羽毛的礼帽。不错。

Rohan: 好的。然后,我点击生成,Sora 就会开始为我的创作进行处理。在此期间,我们来看看这个香水视频的其他 Remix 版本。

Rohan: Sora 2,Sora 出品的新款牙膏。清新、纯净、unapologetic,为你选择成为的任何人。Sora 2,“可能性的微笑” (Smile of possibility)。

Thomas: 我在现实生活中不会说韩语,但在 Sora 里,一切皆有可能。

Rohan: 好了,我们继续看。大家看我的豚跳 (kickflip)。这是我们的同事 Minia 在做豚跳。这个物理效果太惊人了,我在其他任何视频生成模型中都没见过这样的效果。

我自己尝试做这个动作已经快 20 年了,还在努力中。这真的是模型物理模拟能力的一次绝佳展示。

Rohan: 梦想。

Thomas: Rohan 的冠军点。

Rohan: 没错。我要感谢那些“黑子”,是他们给了我动力。你们可以看到我戴的金链子。如果 Thomas 要生成一个视频,他也会在不知不觉中给我加上一条金链子,这也是这个功能有趣的地方。

Rohan: 这舞姿,太搞笑了。

Rohan: 女士们先生们,请掌声欢迎。最后,这个风格范围真的很广。下载 Sora 应用吧,我们很快会告诉大家如何下载。好了,我们去看看我们生成的视频,可能还在处理中……哦,Sam 的那个已经好了。

Bill: 这场直播进行得太顺利了!加油!我太兴奋了,这太棒了,我们做得非常成功!

Rohan: 加油!感谢大家,这太棒了。

Bill: 嘿,谢谢,谢谢。好了,我想另一个视频还在生成中。在等待的时候,我把时间交给 Thomas,让他多谈谈我们关于这个应用的设计理念。

Sora 应用背后的理念

Thomas: 谢谢 Rohan。我想承认,最初在规划这个项目时,我们并不确定这是否是公司想要全力投入的方向。

我们都对一个完全由 AI 生成的信息流这个想法持怀疑态度,不确定它会带来什么样的感觉,以及是否会让人与真实的人际联系脱节。

但是,当我们开始使用 Cameo 功能后,感觉真的完全不同了。它像一种新的媒介,一种与朋友联系的新方式,甚至连我自己都感到惊讶。

当我滚动信息流并思考“哦,我能怎样在这个基础上进行二次创作?”或者“等等,我能把自己放进那个视频里吗?”时,这是一种完全不同的操作模式。

所以,我对于这个产品在团队内部促进联系的方式感到非常满意。

我们注意到,随着时间的推移,许多社交媒体普遍从关注朋友和家庭的联系,转向了其他方向。

我们相信 Sora 可以在这方面有所作为,因为它让创作变得如此简单,是以往任何时候都无法想象的。因此,在信息流中,我们会优先推荐来自你社交圈的内容。

你随时可以看到一个“关注”页面,那里只显示你关注的人发布的内容。我们还推出了一些新功能,让你对自己的信息流有更多的控制权。

在信息流顶部会有一个测试版功能,你可以选择想看的内容类型。比如,如果你想放松一下,就可以选择“放松”。

Bill: 动物。

Thomas: 动物。我们总能从中找到乐趣,只看可爱的动物。这样,你就可以引导模型向你展示与你当前心境相符的内容。

我们还会重点优化信息流,鼓励你去创作,去激发你的灵感,而不仅仅是漫无目的地刷视频。

安全性与内容审核

Rohan: 好的,我再补充一下我们在这个网络上是如何处理安全和内容审核的。显然,正如 Thomas 所说,我们内部对此感到惊喜。

我们曾对一个纯 AI 生成的信息流持怀疑态度,但后来却感受到了其中的人情味。我们认为这是最佳的产品形态,但我们希望在放大这种形态优点的同时,也减轻通常伴随短视频而来的负面影响。

为此,我们采取了多项措施。首先是针对 18 岁以下的用户,我们有专门的政策。默认情况下没有无限滚动,使用一段时间后会有冷却期和中断提示。

即使是成年用户,如果你长时间滚动,当我们认为你可能陷入了“沉迷式浏览” (doom scroll) 循环时,也会提醒你去进行创作,因为我们认为创作是件有趣的事,并且在这个应用上通常能带来很好的体验。

另外一件很重要的事是,我们希望这些内容在离开我们平台时,能被清晰地标记为 AI 生成。我们有多种来源追溯技术。首先,当你从我们的应用导出视频时,视频上会有可见的水印。

所以如果这些视频在其他网络上传播,你会看到 Sora 的标志。我们内部也有技术可以追踪我们在互联网上看到的生成内容,确保能追溯到 Sora。我们还使用了 C2PA 标准。

此外,在 Sora 1 和图像生成技术已有的出色审核机制基础上,我们还部署了推理模型,以确保在这个网络上制造有害内容变得非常困难。

尤其是在 Cameo 功能中,确保没有人能创作色情或暴力内容是至关重要的。我们设置的各种安全防护措施都保证了这一点,这非常了不起。

当然,我们起初在审核方面会采取比较保守的策略,你可能会遇到过度屏蔽的情况,我们提前表示歉意。关于这个,团队内部已经有梗了,大家都在调侃我们过度屏蔽。

我们正在努力寻找用户自由与防范不良行为者之间的平衡,并且会持续优化。

未来计划与发布安排

Rohan: 最后,在我把时间交还给 Bill 之前,我想谈谈我们将要部署的其他几项服务。我们现有的网页应用 sora.com 将会更新到这个新模型。

界面会有一些小改动,但我们也会保留一些很棒的功能,比如即将推出的“故事板” (storyboard) 功能,大约一两周后上线,它能让你以逐个镜头的方式精准控制模型如何创建场景。

正如 Bill 所说,这个模型具有极高的可控性和强大能力。我们希望大力投入开发优秀的创作者工具,让大家能为我们的网络创作精彩的内容。我们也会在未来几周内推出 API。

对于那些我们可能不想自己构建精细编辑功能的长尾用例,其他人可以通过 API 实现惊人的创作。比如,用户可能想把 Sora 2 集成到他们自己的视频编辑器中,现在这已成为可能。

Bill: 好的,我来谈谈我们的发布计划。就是今天,从今天下午晚些时候开始,你就可以在 App Store 下载 Sora 的 iOS 应用。

我们首先只在 iOS 平台上推出。团队正在努力开发安卓版本,请大家耐心等待。我们最初只在美国和加拿大地区上线,并采用邀请制。

正如我们所说,我们认为和朋友一起体验这个应用非常重要。它最好被当作一种社交工具,甚至是一种新的消息传递方式来体验。

所以,当你通过等待列表获得资格时——下载应用后你会收到推送通知——你将自动获得四个邀请码,可以分享给你的朋友,确保你们能一起加入。

我们非常期待大家能用上这些模型。我们在 2023 年初启动了 Sora 研究项目,旨在构建能深度理解物理世界的 AI 系统。

我们认为,这是实现通用人工智能 (AGI) 的一项至关重要的能力。在此过程中,我们训练了许多我们认为能给世界带来巨大乐趣和欢乐的模型。

所以,我们非常期待看到大家最终会用这个应用创作出什么样的作品。我们 Sora 上见。


AI 前线

AI 智能体的上下文工程:构建 Manus 的经验教训

2026-1-3 22:52:17

AI 前线

LangChain 和 Manus 的 AI 智能体上下文工程实践

2026-1-3 22:52:27

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索