从“感觉流”编码到“感觉流”研究:OpenAI 的 Mark Chen 和 Jakub Pachocki




简要描述

OpenAI 首席科学家 Jakub Pachocki 和首席研究官 Mark Chen 深入探讨了 GPT-5,重点介绍了它如何将快速响应与长远推理相结合。他们讨论了在基准测试饱和后 OpenAI 如何衡量进展,强化学习为何持续给怀疑者带来惊喜,以及他们对自动化研究员的展望——即创造出能够产生具有经济影响力新思想的系统。此外,对话还涵盖了智能体系统、AI 编码模型的演进、研究文化的构建、产品与基础研究的平衡,以及公司的资源分配策略。

目录

  • 开场介绍

  • GPT-5 的发布

  • 评估进展:基准与里程碑

  • GPT-5 令人惊喜的能力

  • 自动化研究的未来

  • 智能体、推理与模型规划

  • 将进展扩展到非验证领域

  • 强化学习的角色与成功

  • 奖励模型与最佳实践

  • AI 带来的编码革命

  • 怎样才算一个优秀的研究员?

  • 建立并维持成功的研究文化

  • 平衡产品与基础研究

  • 优先级、计算资源与分配

  • 学术界与前沿 AI 的交集

  • 规模化下的速度与学习

  • OpenAI 的信任与协作

开场介绍

主持人: 欢迎来到我们的节目,Jakub 和 Mark。Jakub 是 OpenAI 的首席科学家,Mark 是首席研究官。你们共同领导着可能是 AI 领域最受瞩目的研究团队之一,既是荣幸,也压力巨大。我们非常激动能与你们探讨我们一直好奇的许多问题,包括最近 OpenAI 最激动人心的更新之一 GPT-5。同时,我们也会回顾你们是如何建立一个不仅能创造出 GPT-5,还能孕育 CodeX、ChatGPT 和 API 业务的研究团队,以及你们如何将跨模态、跨产品的众多赌注,融合成一个协调一致的研究文化和发展故事。

GPT-5 的发布

主持人: 那么,我们先从 GPT-5 开始吧。从你们的角度来看,这次发布进行得如何?

Jakub Pachocki: 我认为 GPT-5 的核心目标,就是将推理能力带给更多普通用户。在 GPT-5 之前,我们有两个不同的模型系列:一个是 GPT 2、3、4 系列,它们能提供即时响应;另一个是 O 系列,它会花很长时间思考,然后给出它能想到的最佳答案。

从策略上讲,我们不希望用户纠结于“我该用哪种模式”。这背后涉及大量研究,需要识别出针对特定提示所需的恰当思考量,从而为用户省去这个麻烦。我们相信,未来将越来越关乎推理和智能体。GPT-5 正是我们朝着默认提供推理能力和更强智能体行为迈出的一步。当然,相比 O3 和之前的模型,GPT-5 在各方面都有许多改进,但这次发布的首要目标确实是让更多人能用上推理模式。

评估进展:基准与里程碑

主持人: 能否详细谈谈你们如何看待评估(evals)?我注意到在发布视频中,你们提到许多评估指标已经从 98% 提升到 99%,这基本意味着评估已经饱和了。你们用什么方法来衡量进展呢?

Jakub Pachocki: 确实,我们过去几年使用的很多评估基准已经接近饱和。所以,从 96% 提升到 98% 并不一定是最重要的事情。还有一点更重要但更微妙:在 GPT-2、GPT-3、GPT-4 时代,基本上只有一种方法,就是用大量数据预训练一个模型,然后用这些评估基准作为衡量其泛化能力的标尺。

现在我们有了不同的训练方式,特别是基于强化学习的深度推理。我们可以选择一个特定领域,训练模型成为该领域的专家,进行深度思考。这使得我们能针对特定类型的任务进行优化,虽然能在某些评估上取得极高的性能,但这并不代表同等水平的泛化能力。所以,我们认为目前高质量的评估方法还很欠缺。

我们现在关注的重点,是模型能否真正发现新事物。对我来说,今年最令人兴奋的进展标志,是我们的模型在数学和编程竞赛中的表现。尽管这些竞赛在某种意义上也正在变得饱和,但我们下一步的评估和里程碑将涉及在具有实际经济价值的领域取得真正的发现和进展。

主持人: 的确,你们已经在 AtCoder 竞赛中取得了第二名的成绩,只剩下第一名了。

Jakub Pachocki: 是的。值得一提的是,像 IMO、AtCoder 这样的评估,实际上是未来研究成功的真实世界指标。世界上许多顶尖的研究人员都经历过这些竞赛并取得了优异成绩。我们正在为模型能够发现新事物的前沿领域做准备。

GPT-5 令人惊喜的能力

主持人: 在 GPT-5 发布前,当你们进行内部测试或在日常工作中使用时,它的哪项能力最让你们感到惊讶?有没有某个时刻让你们觉得它已经足够好,可以在日常工作中发挥作用,因而可以发布了?

Jakub Pachocki: 对我来说,一个重大的惊喜是它在非常前沿的科学领域所取得的巨大进步。我们会让一些身为物理学家或数学家的朋友来试用模型。你可能已经在 Twitter 上看到了一些例子,你可以给它一个问题,它能发现一些虽然不是特别复杂但相当有深度的新数学知识。我们看到物理学家和数学家们一次又一次地重复这种体验,他们尝试后会惊叹:“哇,这是以前的模型绝对做不到的。” 这对他们来说就像一个灵光一闪的时刻,模型能够自动完成他们学生可能需要花费数月时间才能完成的工作。

Mark Chen: 虽然 GPT-5 相较于 O3 是一个明确的进步,但对我个人而言,O3 才是我第一次感觉到推理模型在日常工作中变得非常实用的那个时刻。特别是在处理数学公式或推导时,它的可靠性达到了一个可以作为我工作工具的水平。能达到那个阶段确实非常令人兴奋。不过,正如我们所见,这些模型现在已经能够解决竞赛问题,并且能在更长的时间跨度上进行推理。我预感,相比未来一年的发展,我们现在所取得的成就还只是冰山一角。

自动化研究的未来

主持人: 未来一到五年会发生什么?在你们方便透露的范围内,研究路线图是怎样的?

Jakub Pachocki: 我们研究的核心目标是创造一个“自动化研究员”,也就是实现新思想发现的自动化。当然,我们思考得很多的一个具体方向是自动化我们自己的工作,即自动化机器学习研究,但这可能有点自我循环。所以我们也在考虑自动化其他科学领域的进展。

衡量这方面进展的一个好方法,是看这些模型能够进行推理和取得进展的时间跨度有多长。现在,我们在高中水平的竞赛中几乎达到了精通的程度,这大约相当于 1 到 5 小时的推理能力。我们的重点是扩展这个时间跨度,包括提升模型在更长时间范围内的规划能力,以及保持记忆的能力。

智能体、推理与模型规划

Jakub Pachocki: 回到评估的问题,这就是为什么我们对“模型能自主运行多长时间”这类评估形式特别感兴趣。

主持人: 正好谈到这个话题,现在模型开发正朝着智能体(agency)的方向大步迈进。但目前用户普遍观察到一个权衡:使用过多的工具或规划步骤,可能会导致模型输出质量下降;而一个智能体程度稍低的模型,其输出质量在今天看来反而更高。你们如何看待稳定性和深度之间的这种权衡?模型执行的步骤越多,第十步的准确性可能就越低;相反,让它只做一件事,它可以做得非常好。但要实现完全的自主性,又必须执行多个步骤,使用多种工具。

Jakub Pachocki: 我认为,保持深度的能力很大程度上取决于在长时间内保持一致性。所以这两个问题是密切相关的。事实上,通过推理模型,我们已经看到模型能够可靠地进行推理和工作的时长大大延长,而不会偏离轨道。这仍将是我们关注的一个重点领域。

Mark Chen: 是的,推理是实现长时程操作能力的核心。想象一下你自己解数学题的过程:你尝试一种方法,失败了,然后你必须思考下一步该怎么走,分析第一次尝试中的错误,接着再试另一种方法。这个世界会给你明确的反馈。你不断尝试不同的方法,而这种在很长一段时间内持续进行的能力就是推理,它赋予了智能体所需的稳健性。

将进展扩展到非验证领域

主持人: 我们聊了很多关于数学和科学的话题。我很好奇,你们认为我们取得的这些进展,能否同样扩展到那些不太容易验证的领域?也就是那些没有明确对错之分的领域。

Jakub Pachocki: 这是一个我非常喜欢的问题。我认为,如果你真的想将能力扩展到研究领域,去发现那些能在数月甚至数年尺度上推动技术进步的思想,那么这些问题的界限其实会变得模糊。在一个小时内解决一个定义明确的约束问题是一回事,你只需要在有限的想法中进行搜索。这感觉可能与解决一个非常开放式的问题截然不同。

但是,即使你想解决一个定义明确但时间跨度长得多的问题,比如证明千禧年大奖难题,你突然就需要思考:哪些数学或其他科学领域可能相关?我是否需要从物理学中汲取灵感?我应该围绕这个问题制定一个怎样的整体计划?这些都变成了非常开放式的问题。就像我们自己的研究一样,如果我们只关心降低某个数据集上的建模损失,那么如何衡量“我们是否在研究中提出了正确的问题”,本身就成了一个相当开放的事情。

Mark Chen: 是的,思考“开放式”的极限在哪里也很有意义。不久前,Sam 发推文提到了我们在让模型进行更具创造性写作方面取得的一些进步。我们确实也在考虑这些极端情况。

强化学习的角色与成功

主持人: 好,我们来谈谈强化学习(RL)。自从 01 问世以来,RL 似乎就成了一份源源不断的礼物。每隔几个月,OpenAI 就会有新的发布,然后总有人说:“哦,这很棒,但 RL 这东西很快就会遇到瓶颈。评估会饱和,模型泛化能力会下降,或者合成数据太多会导致模式崩溃。” 每个人都有一长串理由相信 RL 带来的性能提升即将见顶。但事实并非如此,你们总能持续不断地推出改进。为什么 RL 效果这么好?关于它的出色表现,有什么让你们感到惊讶的地方吗?

Jakub Pachocki: RL 是一种非常通用的方法,一旦你有一个可行的 RL 系统,就可以探索很多想法。在 OpenAI,我们很早就开始研究 RL,甚至在语言模型出现之前。我们当时认为 RL 是一种极其强大的工具,尤其是在深度学习这个通用学习方法之上。但我们长期面临的难题是:环境是什么?我们如何将这些模型与现实世界联系起来?是应该模拟一个岛屿,让它们在上面学习协作和竞争吗?

后来,语言模型取得了突破。我们发现,如果我们在自然语言建模上扩展深度学习,就能创造出对人类语言有极其细致理解的模型。从那时起,我们一直在探索如何将这两种范式结合起来,让 RL 在自然语言上发挥作用。一旦你做到了这一点,你就拥有了在一个由预训练提供的极其丰富和稳健的环境中,执行不同想法和目标的能力。所以,过去几年可以说是我们研究中最激动人心的时期。我们发现了如此多新的、有前景的方向和想法,而且它们似乎都在奏效,我们正努力理解如何对它们进行比较。

奖励模型与最佳实践

主持人: 对于非 RL 从业者来说,最难理解的一点就是如何设计合适的奖励模型。特别是对于那些希望利用你们这些惊人进展的企业或商业机构来说,他们甚至不知道从何入手。未来几年对这样的公司会是怎样的?一个试图理解 RL 并设计正确奖励模型的人,应该具备什么样的心态?关于使用最新推理技术的最佳实践或思考方法,你们有什么经验可以分享吗?作为一名生物学家或物理学家,我应该如何着手思考奖励模型?

Jakub Pachocki: 我预计这方面会发展得非常快,并且会变得越来越简单。大概两年前,我们可能还在讨论如何构建最合适的微调数据集,但我觉得这个演变过程还没有结束。我认为我们会越来越接近更像人类的学习方式,而 RL 目前还不是这样。所以,最重要的心态或许是:不要假设现状会永远持续下去。

AI 带来的编码革命

主持人: 我想把话题带回到编码上。今天 GPT-5 CodeX 刚刚发布,我们必须向你们表示祝贺。能多介绍一下它有什么不同吗?训练方式有何变化?以及你们对它感到兴奋的原因是什么?

Mark Chen: CodeX 团队的一个主要重点,就是将我们推理模型的原始智能转化为在真实世界编码中非常实用的工具。他们的大部分工作都围绕这个目标展开。他们正努力让模型能够处理更复杂的环境,因为我们知道真实世界的编码非常混乱。所以他们试图处理所有这些复杂细节。很多编码工作还与风格、以及一些更“软”的因素有关,比如模型的积极性、懒惰程度等等。他们正致力于为编码模型的行为定义一个规范,在这方面做了很多出色的工作。

此外,他们也在开发更好的预设模式。程序员对于愿意为某个解决方案等待多长时间,心里都有一个大概的预期。我们做了大量工作来调整这一点:对于简单问题,我们大幅降低延迟;而对于难题,正确的做法反而是增加延迟,以获得真正最好的解决方案。找到这个最佳平衡点就是关键。我们发现,上一代 CodeX 模型在解决最难问题上花的时间太少,而在简单问题上花的时间又太多。我认为这可能就是直接使用 O3 会得到的结果。

主持人: 既然你们过去都是编程竞赛选手,我们来多聊聊编码。我知道你们加入 OpenAI 都快十年了,但围棋选手李世石的故事让我印象深刻,他在多次输给 AlphaGo 后宣布退役。在最近的一次采访中,你们俩都说现在的编码模型已经超越了你们自己的能力,而这让你们感到兴奋。能详细说说吗?你们现在自己还写多少代码?或者说在 OpenAI,现在有多少代码是由 AI 编写的?

Jakub Pachocki: 关于模型比我们更强,我认为看到这种进步确实非常令人兴奋。编程竞赛在一个封闭的环境和时间框架内,很好地测试了提出新想法的能力。不过,像 IMO 第六题或一些最难的编程竞赛题,我认为模型还有一些进步空间,但应该不会太久了。我个人过去一直非常抗拒使用任何辅助工具,基本上只用 Vim,非常传统。

但最终,特别是随着像 GPT-5 这样最新的编码工具的出现,我真的觉得老方法行不通了。你可以在 15 分钟内近乎完美地完成一个涉及 30 个文件的重构。你不得不使用它。所以,我一直在学习这种新的编码方式,感觉确实很不一样。目前它还处于一种“恐怖谷”阶段:你必须用它,因为它能加速很多事情,但它又不像一个真正的人类同事那么好用。所以,我们的首要任务就是走出这个恐怖谷。但这确实是一个有趣的时代。

Mark Chen: 是的,说到李世石的那个时刻,AlphaGo 对我们俩来说都是 AI 发展中一个非常重要的里程碑。至少对我而言,这是我最初投身这个领域的原因。或许因为我们都有编程竞赛的背景,我天生就对构建能在这些竞赛中表现出色的模型充满热情。从解决八年级数学题,到一年后在编程竞赛中达到我们自己的水平,这种进展速度简直令人难以置信。

你会想象自己也感受到了李世石当时的一部分心情,那种“哇,这太疯狂了”的感觉,以及对未来可能性的思考。这是我花了数十年努力才达到的顶尖水平。所以你会深刻地感受到,这些模型到底有什么是做不到的?我觉得它已经改变了编码的默认方式。上个周末,我和一些高中生聊天,他们说现在默认的编码方式就是“Vibe Coding”(凭感觉编码)。对他们来说,从头开始自己写完所有代码的机械过程,可能只是为了确保完整性偶尔为之,这本身就是一个奇怪的概念。他们会问:“你为什么要那么做呢?默认就该用 Vibe Code。”

怎样才算一个优秀的研究员?

Mark Chen: 所以,是的,我确实认为,未来有希望会是“Vibe Researching”(凭感觉做研究)。

主持人: 我对此有个问题:怎样才算一个优秀的研究员?你提到“Vibe Researching”,而“Vibe Coding”很大一部分是基于一种良好的品味,想要为世界创造有用且有趣的东西。像 CodeX 这样的工具之所以出色,是因为如果你对人们的需求有很好的直觉,它能帮你清晰地表达出来,并快速实现一个原型。那么,在研究领域,与之对应的是什么?什么造就了一位杰出的研究员?

Jakub Pachocki: 坚持不懈是一个非常关键的品质。研究的特殊之处在于,你试图创造或学习一些完全未知的东西。你不知道它是否会成功。所以,你总是在尝试很可能会失败的事情。你需要培养一种心态,准备好接受失败,并从失败中学习。当然,随之而来的是提出清晰的假设,并对自己是否达成这些假设保持极度的诚实。很多人会陷入一个陷阱,那就是想方设法去证明自己的想法是可行的,但这与真正追求真理是两回事。对自己的想法及其重要性抱有信念非常重要,你需要坚持下去,但同时必须对自己诚实,知道它什么时候有效,什么时候无效,这样你才能学习和调整。

Mark Chen: 是的,经验几乎没有捷径可走。通过经验,你会慢慢学会如何从合适的尺度来思考一个问题。你不能选一个太难的,也不能选一个太容易而没有满足感的。很多时候,研究也是在很长一段时间内管理自己的情绪。你会尝试很多事情,但它们都行不通。有时你需要知道何时该坚持下去,有时则需要切换到另一个问题。我认为“趣味性”是通过阅读优秀的论文、与同事交流来培养的,你会将他们的经验内化成自己的方法。

主持人: 我读研究生时,我的导师非常强调要选择正确的研究课题,这样你才能在困难时期坚持下去。你刚才提到一个有趣的观点,即对一个想法有信念,和在它行不通时最大限度地追求真相,这两者之间是有区别的,有时甚至是矛盾的。在选择课题、培养品味的阶段,你有没有发现一些有用的启发式方法,可以帮助你找到那些能让信念和求真不那么对立的问题?

Jakub Pachocki: 需要澄清一下,我不认为信念和求真之间存在零和博弈。你可以对一个想法深信不疑,并在它不顺利时依然坚持。关键在于,你要对自己的进展保持诚实,并以一种能从失败中学习的心态去面对。寻找那些你真正关心并认为重要的问题很重要。我从许多启发过我的研究者身上观察到一点,那就是他们勇于挑战难题,去研究那些公认重要但被认为难以解决的问题,并不断追问:为什么它们难以解决?这个方法为什么会失败?他们总是在思考阻碍下一步进展的真正障碍是什么。当你追求的是你真正认为重要的问题时,你就会更容易找到坚持数年的动力。

主持人: 在 GPT-5 的再训练阶段,有没有过这样的时刻:面对一个难题,最初的尝试都失败了,但有人坚持了下来并最终解决了它?在这些故事中,有没有什么特别有效的方法,是你希望其他研究人员也能多加采纳的?

Jakub Pachocki: 在研发过程中,无论是预训练模型还是推理模型,一个非常常见的主题就是“Bug”。这既包括软件中那些可能潜伏数月、在你不知不觉中让所有实验结果失效的低级错误——找出它们本身就是研究项目的一个重大突破;也包括思维方式上的“Bug”,即你对某个事物的看法存在偏差,导致你做出错误的假设。识别并纠正这些错误假设,从头开始重新思考框架,无论是在最初实现推理模型时,还是在训练更大的预训练模型时,我们都曾遇到过并克服了许多这样的问题。

建立并维持成功的研究文化

主持人: 作为研究部门的领导者,你们认为如何才能留住最优秀的人才?另一方面,如何创建一个有韧性的组织,不会因为某个关键人物的离开而崩溃?

Mark Chen: OpenAI 在激励和留住顶尖人才方面最大的优势,就是我们致力于做基础研究。我们不是那种会环顾四周,看竞争对手 X 或 Y 发布了什么模型的公司。我们对自己要实现的目标有着相当清晰和明确的定义。我们喜欢在前沿进行创新,非常不乐意模仿。我认为人们被这个使命所激励:你真正在做的是发现深度学习技术栈中的新事物。我们正在共同创造一些非常激动人心的东西。

除此之外,很大程度上在于营造良好的文化。我们希望有一个好的培养体系,能把人才培养成优秀的研究员。我们历史上一直倾向于招聘最顶尖和最具创新精神的人才,所以我们的后备力量非常雄厚。我相信我们的大多数领导者都深受使命的鼓舞,这也是他们留下的原因。看看我的直接下属,他们并没有受到人才争夺战的影响。

主持人: 我最近和一位研究员聊天,他提到想寻找那些“洞穴居住者”(cave dwellers)。这些人通常不会在社交媒体上宣传自己的工作,甚至可能不发表论文,他们只是在幕后默默地工作。不知道你们是否认同这个概念,但你们是如何招聘研究员的?有没有什么不那么显而易见的方法或特质是你们会关注的?

Jakub Pachocki: 我们看重的一点是,候选人是否曾在任何领域解决过难题。我们许多最成功的研究员在加入 OpenAI 时才开始接触深度学习,他们之前可能在物理、计算机科学或金融等其他领域工作。我们寻找的是拥有扎实技术基础,同时又有志于挑战宏大问题并能坚持不懈的人。我们不只看谁的工作最引人注目,或者谁在社交媒体上最活跃。

主持人: 你们刚才描述的很多特质,让我想起我创业时招聘优秀工程师的标准。埃隆·马斯克最近发推说,他认为研究员和工程师之间的区别很傻。这仅仅是语义上的吹毛求疵,还是说这两者其实比看起来更相似?

Mark Chen: 我确实认为研究员的类型不止一种。在 OpenAI,有些研究员非常高效,他们极擅长产生想法,但他们不一定需要通过亲手实现所有想法来证明自己的影响力。他们仅仅通过提出“试试这个”或“或许可以那样”,就能产生巨大的价值。而另一些研究员则非常擅长围绕一个想法,严谨地探索相关的实验空间。所以,研究员的形式多种多样。可能第一种类型与传统意义上的优秀工程师不太一样,但我们确实努力让研究品味和风格更加多元化。

主持人: 那么,要创建一个能够吸引各种类型研究员,并让他们成长、成功、协同合作的前沿、致胜文化,需要什么?你们认为一个成功文化最关键的要素是什么?

Jakub Pachocki: 我认为最重要的事情,就是确保你保护基础研究。如今有这么多公司,你很容易陷入一种思维模式,整天想着如何在聊天产品或其他产品层面与对手竞争。你必须确保为研究留出空间,承认研究本身的价值,并给研究人员这样做的空间。你不能让他们被各种产品方向的需求拉扯。

尤其是在 OpenAI 和整个 AI 领域备受瞩目的今天,竞争如此激烈,很容易陷入一种“我们必须赶超对手最新发布”的心态。人们确实有可能会开始左顾右盼,思考别人在做什么。我认为我们工作的一个重要部分,就是确保大家有舒适和空间去思考:一两年后情况会是怎样?我们真正想解决的重大研究问题是什么?我们如何才能创造出远超现有水平的模型,而不是仅仅在当前范式下进行迭代改进?

平衡产品与基础研究

主持人: 接着“保护基础研究”这个话题,你们显然是世界上最顶尖的研究机构之一,但同时也是最顶尖的产品公司之一。你们是如何平衡这两者之间的重点的?特别是在引进了世界上一些最优秀的产品高管之后,你们如何在保护基础研究的同时,继续推动现有优秀产品向前发展?

Mark Chen: 我想关键在于划定一部分真正关心产品、并愿意为产品成功负责的研究员。他们当然应该与整个研究部门紧密合作。但让每个人都清楚自己的任务和衡量标准,这是非常重要的一点。

另外,很有帮助的一点是,我们的产品团队和公司高层都认同我们研究的愿景。所以,没有人会假设我们现在的产品就是最终形态,然后坐等研究部门提供新版本。我们能够共同思考未来会是什么样子。

主持人: OpenAI 的一个特点是,你们允许各种不同的想法和赌注在内部蓬勃发展。作为研究领导者,你们必须设法将这一切整合成一个连贯的路线图。比如,这边有人在探索扩散模型和视觉媒体的未来,那边又有人在研究代码推理的前沿。你们如何将所有这些描绘成一幅连贯的图景?当给予研究人员进行基础研究的独立性,与将所有项目融入一个统一的研究计划之间可能存在张力时,你们是如何协调的?

Jakub Pachocki: 几年来,我们研究计划的既定目标一直是实现“自动化研究员”。我们的大部分项目都是围绕这个目标构建的。这仍然为自下而上的想法产生和在各个领域进行基础研究留下了很大的空间。但我们总是在思考这些想法最终将如何结合在一起。例如,我们相信推理模型有更大的发展空间,尽管我们也有很多探索并非直接与推理模型相关的项目,但我们一直在思考它们最终如何融合。当一个系统能够花几个月时间思考一个难题时,这种创新会是什么样子?所以,我们长期目标的清晰度非常重要。但这并不意味着我们对所有细节都做出了规定,我们绝对将此视为一个探索和学习这些技术的过程。

Mark Chen: 是的,你需要在非常宏观的层面上提出明确的观点和方向,但在更细的层面上,很多想法可以自下而上地涌现。

主持人: 最近有没有出现过这两者之间产生矛盾的时刻?举个例子,最近谷歌发布了新的图像模型 Nano Banana,它向普通大众展示了巨大的价值,当模型擅长理解编辑提示时,可以释放大量创造力。我可以想象这会给一个并未直接优先考虑该方向的研究计划带来一些压力。如果你们团队里有才华的人来找你们说:“伙计们,这东西在世界上显然很有价值,我们应该投入更多精力。” 你们会如何思考这个问题?

Jakub Pachocki: 这绝对是我们在 OpenAI 思考了相当一段时间的问题。回顾 GPT-3,当我们看到语言模型的发展方向时,我们确实进行了很多讨论。很明显,AI 可以做很多神奇的事情。你既可以拥有推动科学前沿的超级智能模型,也可以拥有令人惊叹的媒体生成和颠覆性的娱乐应用。如何在这些方向之间进行优先排序,确实是我们长期以来一直在思考的问题。

Mark Chen: 的确如此。实际的答案是,我们不会阻止任何人对此感到兴奋。只要我们在优先级排序和产品策略上保持一致,它自然会找到自己的位置。我们鼓励很多人去探索和构建各种他们感兴趣的产品。但对我们来说,同样重要的是要有一个独立的团队,他们的目标是创造算法上的突破,你需要保护好这个团队。

优先级、计算资源与分配

主持人: 接下来的问题是,这如何转化为具体的资源分配框架?比如,你们会规定 X% 的计算资源用于长期、重要但可能更遥远一些的探索,而另一部分用于当前的产品推理,以及介于两者之间、中短期内可实现的项目吗?

Mark Chen: 是的,这正是我们俩工作的一个重要部分,即如何将计算资源分配给不同项目的投资组合管理问题。历史上,我们倾向于将更多资源投入到核心算法的进步上,而不是产品研究。但这是一个需要随时间动态调整的事情。每个月的需求都可能不同,所以保持灵活性很重要。

主持人: 如果你们多了 10% 的资源,会投入到计算上,还是数据整理或人才上?从边际效益的角度看,你们会怎么选择?

Jakub Pachocki: 好问题。说实话...

Mark Chen: 我觉得,就今天而言,是计算资源。

主持人: 合理的答案。

Jakub Pachocki: 是的,老实说,回到你关于优先级的问题。在真空中,你当然希望在所有这些事情上都做到最好。但危险在于,你可能最终在所有事情上都只做到第二名,而在任何一个领域都无法明确领先。所以优先级排序很重要,你必须清楚地确定哪些是我们必须取胜的领域。

主持人: 我觉得有必要多聊一下计算资源,因为在某种程度上,计算资源决定了像 OpenAI 这样的研究机构的命运。几年前,一种很流行的说法是,我们很快就不会受计算资源的限制了,因为人们正在发现各种新的方法,算法效率会提高,最终我们会进入一个数据受限的时代。但几年过去了,我们似乎仍然处在一个计算资源非常重要的环境中。你们认为这种情况短期内会改变吗?

Jakub Pachocki: 我认为我们已经看到了足够多的证据,表明计算资源能带来多大的可能性。我一直不太相信我们会进入数据受限的说法,我也不认为这种情况会改变。

Mark Chen: 是的,任何说这种话的人都应该来我的岗位上待一个星期,没人会说“我的计算资源足够用了”。

学术界与前沿 AI 的交集

主持人: 历史上,推动基础研究的使命主要由大学承担,部分原因就是你刚才提到的计算资源限制。但在前沿 AI 领域,情况并非如此。你们在引导前沿 AI 进展以帮助科学发展方面做得非常出色。我很好奇,当今天大学的基础研究世界与前沿 AI 的世界碰撞时,会产生什么?

Mark Chen: 我个人是以 OpenAI “居民”(resident)的身份开始的,这是一个为不同领域的人设计的项目,让他们能快速学习 AI 并成为高效的研究员。我认为这个项目有很多强大的元素。我们的想法是,能否尽可能缩短类似博士学位的培养时间?这很大程度上需要亲手实现许多核心成果。在这个过程中,你会犯错,会建立直觉,比如“哦,如果我这个参数设置错了,网络就会这样崩溃”。你需要大量的实践经验。

随着时间推移,所有这些大型实验室可能都开发了关于优化、架构和 RL 的课程。可能没有比亲手实现这些东西、阅读相关文献并进行批判性思考更好的学习方法了。

Jakub Pachocki: 是的,在学术界你能体验到的另一件好事,就是那种坚持不懈的精神。你有几年的时间去解决一个难题,一个你以前从未遇到过的难题。我确实觉得,当前 AI 的发展速度非常快,想法也比过去更容易成功,因为深度学习本身就渴望学习。但亲手去处理一个更具挑战性的问题,成为一个挑战宏大目标的团队的一员,体验那种被卡住的感觉,以及最终取得进展的喜悦,我认为这也是非常宝贵的学习经历。

主持人: 外部对某个产品发布的看法和反响,在多大程度上会影响你们的优先级排序?比如,当看法和实际使用情况一致时,方向可能很明确。但如果两者不一致,这会影响你们对路线图的思考或资源投入的侧重吗?

Jakub Pachocki: 我们通常对未来有相当坚定的信念,所以我们不会把它们与产品的短期反响紧密挂钩。当然,我们会根据发生的事情进行学习,阅读其他论文,关注其他实验室的动向。但总的来说,我们的行动是基于对我们正在构建的东西的强烈信念。这当然是针对我们的长期研究计划而言。当涉及到产品时,迭代周期会快得多。

Mark Chen: 是的,每次发布,我们都希望它能在产品方面取得巨大成功。从基础研究的角度,我们试图创造具备所有核心能力的模型,以便构建丰富的体验和产品。会有人有某个具体产品的愿景,我们会发布它,并且我们真心希望每次发布都能大获成功。我们会根据反馈来调整我们的产品策略。但我们的业务也确实包括发布非常有用、广受欢迎的产品。

规模化下的速度与学习

主持人: 感觉上,由于我们刚才讨论的那种完全不受约束的发展速度,未来几年会发生很多变化。预测 10 年后变得非常困难,甚至 10 个月后都很难说。所以我的问题是,在 AI 前沿带来的所有变化中,你们认为有哪些先验信念应该保持不变?除了“我们没有足够的计算资源”之外,还有什么你们认为是强大且合理的常量?

Jakub Pachocki: 除了计算资源,更广泛地说,还有物理约束,比如能源。另外,在不远的将来,机器人技术会成为一个主要焦点。所以,我认为思考物理约束将一直很重要。但在智能方面,我不会做太多假设。

主持人: 很少有创业公司能达到你们这样的规模,无论是员工数量还是收入,同时还能保持你们俩刚加入时那种七八年前的惊人速度。这样做的秘诀是什么?即使你们现在已经处于顶端,你们是如何继续保持这种快速发布的压力和动力的?

Mark Chen: 在我看来,我们拥有优秀研究文化的一个最清晰的标志是,我从未在 OpenAI 感到过学习停滞。我曾在其他公司工作过,那里确实存在“学习平台期”:你刚去公司的一两年学到很多东西,然后就发现自己在这个框架内已经相当高效,学习就停止了。但在 OpenAI,正如你所描述的,每周都有各种很酷的研究成果涌现,你总是在学习新东西。仅仅是跟上所有进展就是一项全职工作。这让我感到非常充实。我们就是想产出大量高质量的研究,如果你产出的东西多到你几乎跟不上,这反而是件好事。

Jakub Pachocki: 没错。我认为技术的发展本身就是一股驱动力。也许在某个固定的范式下工作几年后,我们会感到安逸。但我们总是处在新事物出现的风口浪尖上,需要围绕新的约束和可能性来重新调整我们的思维。这创造了一种持续变化的感觉,以及一种总是在学习新事物的思维模式。

OpenAI 的信任与协作

主持人: 在我们的研究中发现,OpenAI 经历了许多变化,但有一件事没变,那就是你们俩彼此之间的信任。最近《麻省理工科技评论》有一篇关于你们的报道,其中一个主题就是你们之间的化学反应、信任和默契,这已经成为 OpenAI 许多人眼中的一个常量。这背后有什么故事吗?你们是如何建立起这种信任的?

Mark Chen: 这就像在问《当哈利遇到莎莉》里的情节一样。我们现在就像坐在沙发上接受采访。嗯,我想我们是在开始研究推理的早期阶段开始更紧密地合作的。当时,那并不是一个很热门的研究方向。但我们俩都从中看到了一线希望,于是我们开始朝着这个方向努力,想办法让它奏效。随着时间推移,我们把一个很小的努力发展成一个越来越大的项目。我想就是在那时,我开始与 Jakub 深度合作。他真的是一个非凡的研究员。任何排名里,他都应该是第一名。他有能力接受任何非常困难的技术挑战,然后花两周时间思考,几乎是凭一己之力就把它解决了。他既有广博的知识面,又能深入钻研并亲自解决这些技术难题,这太不可思议了。

主持人: 现在轮到你夸夸他了。

Jakub Pachocki: 谢谢,Mark。我们一起做的第一件大事,大概是我们开始觉得某个算法可能会成功。我当时在想,我们应该如何组织人力来做这件事。我和 Mark 讨论后,觉得应该成立一个专门的团队来实现它。然后 Mark 真的去做了:他把一群来自不同背景的人召集起来,从一个松散的群体中创建了一个化学反应极佳的团队。这给我留下了极其深刻的印象。我非常感激能与 Mark 合作,并从他身上学到很多。他既能理解和参与研究的技术细节,又具备卓越的领导力,能激励团队,并在这个充满混乱方向的领域中建立一个协调一致、能够凝聚在一起的组织结构。这非常鼓舞人心。

主持人: 这个结尾太棒了。科学史上一些最伟大的发现,尤其是在物理学领域,常常来自于一对跨大学、跨领域的合作者。现在看来,你们也延续了这个传统。非常感谢你们今天能抽出时间来和我们聊天。

Mark Chen: 谢谢你们邀请我们。


AI 前线

“你们尽管做空 OpenAI!”奥特曼霸气喊话,纳德拉亲述微软百亿投资内幕 | 巨头对话

2025-12-23 15:12:21

AI 前线

Cloudflare:Rust 赋能,速度与安全双重提升

2025-12-23 15:12:28

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索