本文整理自对 OpenAI 前推理模型(o1、o3)关键架构师 Jerry Tworek 的深度访谈。Jerry 结合其在 OpenAI 七年的实战经验,剖析了 Scaling Law 的现状与瓶颈,指出当前模型虽在“明确训练过”的领域表现卓越,但缺乏处理未知分布的泛化能力。他提出 AGI 的核心标志是模型在遇到困难时具备“自我突破”的能力,并断言静态模型无法实现 AGI,持续学习是必经之路。此外,访谈还涉及了 OpenAI 的关键决策内幕、AI 编程对管理能力的重塑,以及对机器人和生物 AI 领域未来趋势的前瞻性预测。
原创 听雨 2026-01-30 14:57 北京

规模化带来的收益很稳定,但问题在于泛化。


编辑 | 听雨
不得了,一位OpenAI前研究员出来说大实话了!
就在昨天,《Unsupervised Learning》节目邀请OpenAI前研究员Jerry Tworek做客。Jerry Tworek是OpenAI 推理模型o1、o3和Codex背后的关键架构师,参与了过去几年AI领域最关键的突破。他最近离开了OpenAI,原因是他希望去做一些在大型实验室里更难开展的研究方向。
在这期节目中,Jerry谈论了很多近期热议的话题:比如预训练和强化学习扩展的真实局限与前景、对AGI的时间预期如何、各大实验室的研究方向逐渐趋同、OpenAI在发布GPT-4时的关键押注、优秀的AI研究院标准是什么等等。

Jerry表示,Scaling范式带来的收益是稳定可预测的,但它最终能否带来AGI,关键在于模型的泛化能力如何。他指出,现在愈发存在一种现象:我们正在变得极其擅长“我们明确训练过的东西”。
他也坦言,自己之前对于AGI非常乐观,认为只要一直做强化学习就能达到AGI。但做了一段时间之后,他的时间预期变得保守了。最大的观念转变在于:如果模型无法在遇到困难时自行突破、无法把自己从“卡住”的状态中解救出来,就很难称它为 AGI。
自2019年加入以来,Jerry已经在OpenAI有了六七年工作经历。从一个只有三四十人的小实验室起步,发展到世界上最大的公司之一,Jerry坦言在OpenAI的经历“真的很疯狂”,而且他当初相信这里真的是能“构建AGI”的地方。
他表示自己记忆中OpenAI最关键的决策有两个:一个是集中大量资源训练 GPT-4,这是一个伴随巨大取舍的决定,但它在 OpenAI 历史中极其关键,事后证明是一个非常好的选择;另一个是押注“推理模型是未来”,让OpenAI完全转向这个方向,发布了o1和o3。
Jerry透露,OpenAI 的研究部门从一开始就与产品团队高度分离。公司的核心使命始终是“构建智能”。对一家公司来说,通常只能把一件极难的事做到极致,很少能同时把多件极难的事都做到顶级。他也认可,Anthropic在编程方面做到了领先,关键就在于方向的聚焦。
Jerry认为,当下最重要的技能,其实是“管理初级工程师”的能力。最好的管理者既深刻理解系统,又能放手让别人做决定——这恰恰也是与模型协作的最佳方式。
Jerry还分享了他近期更新的一个重大认知:静态模型永远不可能成为 AGI,持续学习是必不可少的。此外,他还认为机器人领域出现类似 ChatGPT 的“拐点时刻”,大概需要两到三年。
以下是对话内容全文,有部分删减和润色:
Scaling范式还能走多远:
规模化带来的收益很稳定,问题在于泛化
主持人:
你在 OpenAI 推动了推理模型的引入,以及强化学习的规模化。那么从现有的 scaling 范式来看,我很好奇你的判断:我们现在靠预训练 + 强化学习,能力大概还能走多远?这条路线最终能把模型带到什么程度?
Jerry:
它肯定能把我们带到某个地方。问题是,我们该如何给那个“地方”命名?
主持人:
你可以来定义。
Jerry:
但对大多数从业者来说,有一个非常现实、而且相当震撼的事实:规模化带来的收益是真实的、可预测的,而且相当稳定。
每当我们扩大预训练规模,我们就会得到更好的预训练模型——它们对世界的了解更多、对语言的理解更深、对围绕它们的一切建立起更完整的“语言化世界模型”。
同样地,扩大强化学习的规模,也会让模型在获取我们想要的技能方面做得更好。
在这两种情况下,你基本都会“得到你所训练的东西”。
如果你想要一个擅长下一个 token 预测的模型,那就大规模做预训练,你会得到一个在 next-token prediction 上非常、非常强的模型;如果你想要某一组特定技能,那就对这些技能做强化学习,模型也会在这些任务上变得非常、非常优秀。
从某种意义上说,几乎没有明显的上限。现在大家都知道:只要你在意某个技能,你就对它做强化学习,模型就能把它学到非常好——事情基本就是这么简单,而且确实有效。
真正让人犹豫、或者感到卡住的地方在于:这些模型的泛化能力如何?它们在训练分布之外表现如何?
对于预训练语料里根本不存在的知识,模型能不能处理?大概率不能。对于你从未用强化学习训练过的任务,它们表现如何?大概率也不太好。
所以,这些几乎就是当下 AI 世界里剩下的核心问题:我们正在变得极其擅长“我们明确训练过的东西”。
主持人:
这似乎引出了两种不同的观点:一种认为,我们其实才刚刚开始探索强化学习的潜力,随着继续扩展规模,泛化能力自然会逐渐显现,这两条 scaling 路线就足以带我们走到很远;另一种则认为,想要继续突破,可能必须引入全新的范式。你更偏向哪一边?
Jerry:
我觉得这在很大程度上是一个经济性问题。很明显,“规模化”在很大程度上意味着增加数据,而没有数据,规模化几乎是行不通的。
如果你不断加入你想让模型擅长的数据,那模型就会在这些事情上变得更好。
你现在看到的现象是:几乎每个季度、每个实验室都会发布一个更强的模型。
这背后大多数时候意味着三件事:
第一,更多算力;
第二,更重要的,是更多数据;
第三,也是最关键的,这些数据是针对上一代模型的短板而精心定制的。
这是一种极其强大的方法论:不断迭代,就能训练出越来越好的模型。从这个角度看,如果你持续不断地补充“你希望模型会做的事情”的数据,最终你确实可以得到一个在这些事情上都表现不错的模型。
但这个循环在某些方面是很慢的。真正的问题在于:有没有可能更快?
在现有训练范式下,我确实相信,只要不断加入目标数据,模型就会学会相应的技能,并且会有一定程度的泛化。
但关键问题是:有没有别的研究方向,可以用更少的数据,得到更多的能力?有没有更“根本性”的方式,让模型更好地利用它已经见过、已经学到的东西进行泛化?
主持人:
我们稍后再回到这些潜在的新方向。先帮听众建立一个背景:以你自己的经验来看,强化学习目前在哪些地方好用,在哪些地方不好用?
很多人会提到“容易验证”和“不容易验证”的任务差异。你自己的心智模型是什么?哪些事情是今天的 RL 真正能有效做的?
Jerry:
“容易验证 / 难以验证”这个问题,本质上接近于:我们能否获得一个有意义的质量信号。
在 OpenAI,我们在很多方面已经取得了相当不错的进展,让模型在各种任务上通过强化学习变得更好。事实上,强化学习可以用于非常多的事情。
但有些事情,本质上就很难判断什么是“好”,什么是“不好”,或者你需要等待非常长的时间才能得到反馈。
比如写一本书:你当然可以用一些简单的方法判断它好不好,但真正可靠的信号,可能要等它上市、看看有多少人愿意读、愿意买。
即便如此,这个信号也并不总是可靠——可能评论家一致认为这是一本杰作,但由于营销失败,根本卖不出去。
那我们要如何对“写一本好书”做强化学习?这本身就很难回答。人类是如何学会写好书的?这同样是一个极其复杂的问题。
创业也是类似的例子。很多公司在早期阶段启动,我们怎么知道哪一家是“好公司”?往往要五年、十年之后才能看清楚。创业者早期做的某个决策到底是对是错?还是说,成功很大程度上来自运气?在这种场景下,直接做强化学习是非常、非常困难的。
不过,只要你能得到任何形式的反馈,原则上你就可以用它来做强化学习。
主持人:
你参与的模型在编程竞赛、数学竞赛等任务上的表现,让很多人感到震撼。但大家仍在试图建立直觉:现实世界的大多数任务,更像“编程和数学”,还是更像“写书、创业”这种极难构建奖励信号、也难以反复试验的任务?比如会计、医学、法律——你直觉上觉得它们更接近哪一类?
Jerry:
归根结底,还是一个问题:你有多容易判断“你做得好不好”。即便对人类来说,判断一本书写得好不好,本身就很难。
如果你是一个会计团队的管理者,而这个领域有明确的规则,你可以相对容易地判断哪个会计做得好,哪个做得不好。只要规则清晰,你就可以用这些规则训练几乎任何系统。
医学也是如此。我最近思考了很多关于外科医生的问题:那里确实存在明确的规则,也存在明确的反馈信号——病人是否在手术后存活,这本身就是一个非常强的成功标准。
更有意思的是:真正顶尖的医生,往往会在关键时刻违背既有规则。他们凭借经验判断,必须以一种前所未有的方式来进行手术。他们打破惯例,结果却成功了,挽救了病人。
我认为,模型在足够时间和足够尝试次数的前提下,也有可能做到类似的事情。
真正的问题在于:模型需要多长时间,才能真正达到这种水平?
主持人:
如果我们想让强化学习在更多人类关心的任务上具备泛化能力,你认为接下来真正需要攻克的前沿问题是什么?
Jerry:
我认为,泛化本质上是模型本身的属性。训练时,你真正决定的是训练目标;最终,你得到的,基本就是你所优化的那个目标。问题在于:你还能“顺带”得到多少额外能力?
确实存在一些学习方法——即便是 next-token prediction,它们几乎不泛化,比如最近邻分类。从理论上讲,它能解决任何机器学习问题,但泛化能力极差,因为它构建的世界表示极其简单。
神经网络,尤其是大规模训练的神经网络,神奇之处在于:它们学到了非常有用、非常抽象的世界表示。有时我们甚至会觉得这是“白捡的”:为什么一个在互联网上训练的巨大 Transformer,居然能如此深入地理解现实世界中的各种概念?
这种泛化能力,来自 Transformer 架构、大量参数,以及反复施加的梯度下降。这本身就像一种魔法。问题是:是否存在一种不同的模型,能够泛化得更好?几乎可以确定,答案是“有”。真正的问题是——它会长什么样?
如果模型遇到困难时无法自行突破,
很难称之为“AGI”
主持人:
我听你以前提到过,你在做强化学习规模化之后,对 AGI 的一些时间预期变得更保守了。为什么?
Jerry :
我以前确实是一个非常乐观的人,觉得只要对模型做强化学习,就能走到 AGI。
也许我们已经做到了。也许它已经是 AGI 了——这完全是一个非常主观的判断。因为“AGI 是什么”,往往取决于我们还缺什么。
现在的模型已经能解决几乎所有奥林匹克级别的问题、各种竞赛问题。甚至已经开始在解决一些前所未有的数学问题。你每周都能看到 GPT-5.2 之类的例子。
那什么时候才会有一个“大家都会同时点头说是”的时刻?我不知道。
我是编程模型的重度用户。它们依然会犯错。它们能帮我完成一些原本要花非常长时间的工作,是极其强大的生产力放大器。但与此同时,也存在明显的失败场景。当模型失败时,你会很快感到一种“无力感”。你可以反复粘贴错误信息、告诉模型“这个不行,换一种方式”,有时候甚至要给它“精神鼓励”。
但本质上,模型并没有一种机制,能够在失败后真正更新自己的信念和内部知识。这大概是我观念上最大的变化:如果模型无法在遇到困难时自行突破、无法把自己从“卡住”的状态中解救出来,我就很难称它为 AGI。
真正的智能,会不断尝试、不断探测问题的结构,直到找到解决方案。而当前的模型,还做不到这一点。
主持人:
这正好过渡到一些“超出纯粹预训练和强化学习规模化”的研究方向。你刚才谈到的很多问题,其实和“持续学习”非常接近——这也是最近越来越多被公开讨论的话题。我很好奇,从一个宏观层面来看,你会如何向听众解释:要让持续学习真正可行,最核心、最需要被解决的一组问题是什么?
Jerry:
最核心的一点在于:如果你希望模型能够持续地被训练,那你就必须确保模型不会崩溃,不会进入某种奇怪的、失控的状态。
深度学习训练失败的方式有很多种,而现在大型实验室里相当大一部分工作,其实都是在让模型“保持在轨道上”,让训练过程保持健康。
从根本上说,这是一件非常脆弱的事情——训练并不是一个天然会顺利进行的过程,你必须持续投入大量精力,训练才不会“炸掉”。如果你不这样做,最终就很难得到一个好模型。
而这在我看来,与人类学习的方式有着本质上的不同。人类的学习过程要反脆弱得多,也更鲁棒。人类可以在学习过程中不断自我修复、调整,而不是轻易崩溃。
我在做强化学习研究时,常常会感到惊讶:人类是多么少见地会在学习新信息后突然“宕机”,开始胡言乱语,或者陷入某种奇怪的认知状态;而 AI 模型却相当容易发生这种情况。
这正是研究者们一直在试图解决的问题——无论是从理论还是实践角度:如何对抗这种不稳定性。
我认为,这种训练过程本身的根本鲁棒性,很可能正是实现持续学习所必需的关键前提。
主持人:
在你看来,关于持续学习的一些有意思的想法,有多少是其实已经存在一段时间、被反复讨论过的?又有多少是真正全新的研究问题?
Jerry:
我觉得,作为研究者,一个最重要、也最值得反复问自己的问题是:为什么这个问题到现在还没有被解决?
持续学习显然还没有被真正解决,那么问题就在于:为什么?
世界上有这么多聪明的研究者,有这么多卓越的想法,但至今没有人真正“攻破”持续学习,这背后一定有原因。
关于这个问题,有很多不同的假设。但其中一个我认为非常根本的原因是:这很可能是一个必须在“规模”上才能解决的问题,至少要达到某个阈值规模。
而现在,真正具备条件去做这种研究的顶级实验室数量非常有限;它们能同时推进的研究项目也有限。
所以很可能,并不是没有正确方向,而是如果这是一个可以在小规模下被彻底验证、被根本性突破的问题,或许早就已经有人做出来了。
那它要么是一个极其复杂、理论上非常困难的问题;要么就是需要已经非常大的模型和算力资源,而这些只掌握在极少数实验室手中。
而这些少数实验室,很可能只是还没来得及、或者还没选择去探索某一条特定的路径——因为它们当时正忙于别的事情。
主持人:
我以前听你说过这样一种观点:在 AI 研究中,有些想法“还没到合适的时间”,但它们依然是好想法。强化学习本身就是一个例子——在拥有大规模预训练模型作为基础之后,它才真正爆发。
所以听起来,你的直觉是:现在其实已经存在一些非常好的想法,只是如果它们真的能被放到足够大的规模上去尝试,可能会对这一类问题产生巨大帮助。
Jerry:
是的,完全同意。
各大实验室在研究方向上高度趋同
主持人:
你也提到过一个现象:各大实验室在研究方向上正在高度趋同,大家做的事情越来越相似。我不知道这是否也是你过去两三年的真实感受,但当你当年主导某些工作时,那些确实是全新的方向,很多实验室在当时是有点措手不及的。
你能不能谈谈过去一年左右这种“收敛”的趋势?这对你来说意外吗?
Jerry:
在强化学习中,有一个非常经典、被充分研究过的权衡:探索与利用。
什么时候应该尝试新的东西?什么时候应该极致优化你已经很擅长的东西?这个权衡本身没有标准答案,因为你永远不知道“未知的东西”到底值不值得探索。
从根本上说,问题在于:是否存在一条与当前路径截然不同的路线,能带来巨大收益?但如果你并不了解整个搜索空间的地形,这个问题本身就极其困难。
我记得曾经有人跟我说过一句话:为什么所有商用飞机看起来都长得差不多?尽管制造它们的公司并不止一家。原因在于:在经济约束下,这基本上已经是最有效的设计了。
今天各大实验室的行为,其实也受到非常强的经济力量驱动。如果你想参与竞争,你就必须在尽可能低的成本下,做出尽可能好的模型。而在这个目标下,现有的技术组合已经相当高效。
客户可以随时切换模型,最终获益的是用户——这也进一步推动实验室不断在同一条路径上做效率优化。
当然,这里始终存在一个探索与利用的问题。我们要不要“出海航行”,看看远方有没有完全不同的大陆?要不要训练一种彻底不同的模型?
这么做,很可能会分散注意力,让你无法持续把现有方法做得更好、更高效。
但另一方面,也许那里存在着 10 倍、甚至 100 倍的突破。
最终,这取决于一种信念和判断:我们愿意为探索未知承担多大的风险?
主持人:
正如你所说,现在确实存在一条非常清晰的路线:不断往强化学习和各类任务中加数据,持续提升在经济上有价值的能力。
每个实验室都有一张明确的 roadmap,这反而让“孤注一掷去赌一个全新方向”变得更难。而当年预训练似乎接近瓶颈时,反而更容易鼓励探索。
Jerry:
是的,不同历史阶段确实不一样。有些时期,探索的空间更大,容错率也更高;而当竞争变得极其激烈时,就会变得很像一个“囚徒困境”——只要你选择与众不同,就很容易在市场竞争中失去优势。
实验室的先发优势很重要
主持人:
你觉得实验室是否一定要成为“下一个重大突破”的发现者?我之所以这么问,是因为这些想法往往扩散得非常快。比如你在推理模型上的开创性工作,如今已经有好几家实验室都有很强的推理模型。
我甚至在想:即使突破发生在别的地方,实验室是不是也完全可以接受?因为这些想法最终都会被吸收进现有的商业体系。
Jerry:
思想的扩散当然是好事,但“领先一步”的价值不应该被低估。
我们已经见过这样的例子:曾经很多人认为 OpenAI 不可能成功,但它在大规模 Transformer 预训练上领先一步,最终成为世界上最成功的公司之一。
同样地,OpenAI 率先解决了大规模强化学习的问题,这使得它直到今天,依然拥有业内最强的强化学习研究体系之一,能够做出更大胆、更具雄心的事情。
即便想法会扩散,先发优势依然极其强大——如果你能维持住这种优势,它甚至可能长期存在。
我最近在读一本关于半导体制造的书。很多最早的关键技术发明都发生在美国,随后逐渐扩散到世界各地。但与此同时,也存在某些阶段性的领先优势,是其他国家始终无法追赶的——这种早期下注、持续投入所带来的复利效应,会在很长时间内发挥作用。
并不是只有一个国家能做半导体,但也绝不是每个国家都能。每一次产业变迁中,总会有新的成功者、新的失败者;有些老公司成功转型,有些则被淘汰——这就是进步中的达尔文过程。
主持人:
消费者和企业往往会记住第一个带来“魔法般体验”的公司。你们在 ChatGPT 上显然经历过这一点。你在强化学习上取得了如此多的进展,而这一方向至今仍在持续推进,但你最终选择离开 OpenAI,去探索新的研究领域。
我很好奇:你是什么时候开始意识到,自己可能想要离开的?又是如何真正做出这个决定的?
Jerry:
这并不是一个突然发生的决定,而是一个在内心中慢慢生长出来的过程。
OpenAI 并不是一个容易离开的地方——我在那里有很多朋友、很多共同的历史,我的人生有很大一部分是在那里建立的。我曾经非常努力地尝试让一切继续运转,寻找不同的可能性。
但作为研究者,如果有一天你醒来,发现自己不再真正热爱正在做的事情,不再对它感到极度兴奋,那也许就是时候去尝试别的东西了。
如果你没有 100% 的热情,是几乎不可能做出最好的研究工作的。我在 OpenAI 曾有过很多充满无限热情的日子,但到后来,这种感觉变得越来越难以维持。
主持人:
那现在是什么在给你能量?
Jerry:
从最根本的层面来说,我当初加入 OpenAI,是因为我相信强化学习是通向 AGI 的必要组成部分,我真的、非常想让它发生。
把“推理模型”引入这个世界,对我来说是一种范式级的转变。某种程度上,我想再次追逐那种感觉——找到当下模型训练方式中缺失的一块,并设法让它成为主流。但一旦你做过那样的事情,就很难再获得同等强度的“冲击感”。
所以我现在想要的是一些自由,去思考、去探索,去尝试解决那些最核心、最重要的问题。
主持人:
你现在是带着很多具体假设在推进,还是更多在“拉远视角”,重新观察整个领域?
Jerry:
通常来说,真正重要的问题,并不是你在做了七年机器学习之后才突然发现的。
你其实早就知道哪些问题最关键。真正困难的是:如何用一种与所有人不同的方式去解决它们。因为如果它们能被常规方式解决,早就已经有人成功了。
OpenAI两次关键决策:
集中资源训练GPT-4,押注“推理模型是未来”
主持人:
你曾说过,自 2019 年加入 OpenAI 以来,几乎每一年都像是一家“不同的公司”。我很想请你回顾一下这六七年的演变,讲讲你眼中的 OpenAI 成长叙事。
Jerry:
从一个只有三四十人的小实验室起步,而且从一开始就完全开放,这是一个极其大胆的选择。我们当时真的相信,这里会是构建 AGI 的地方,会为世界带来数字智能的普遍收益。
从最初几个人做一些“看起来很酷、但极其野心勃勃”的项目,到今天发展成世界上最大的公司之一,做出了几乎所有人都知道、每天都在用的产品,甚至已经很难想象生活中没有它——这段经历真的非常疯狂。
你也知道,OpenAI 的管理层和组织结构在过去一年里发生了相当大的变化。你每天共事的人变了,公司规模变了,研究主题也在不断变化。早期甚至根本没有“预训练”这个概念,后来有一段时间几乎一切都围绕预训练展开;再之后,它有点变成了我们“老 OpenAI”的样子。现在则更平衡一些,既有预训练,也有其他方向。
很多人离开 OpenAI,去创办公司、开启新的人生阶段;与此同时,也有大量优秀的新鲜血液加入,继续在内部做非常出色的研究。这是一家不断自我重塑、并在每个阶段都成功成长的公司。
我常常会想,那些伟大的成功公司,它们的故事一定很精彩,而能亲历这些阶段一定是种难以复制的体验。我觉得自己参与了 OpenAI 相当早期的一段历程,这种经历真的很难和其他任何事情相比。
主持人:
大家都很期待未来会有人系统地写下 OpenAI 这一段历史。通常这种故事都会聚焦在那些“关键但极其艰难的决定”上——那些可能向不同方向发展的分岔点。对你来说,有没有哪些特别关键的决策,让你印象深刻?
Jerry:
这是个好问题。我其实只真正参与了其中一部分,很多决定我可能只是“背景角色”。
比如,是否要向世界发布 ChatGPT 的讨论——你可能也听说过,它后来的流行程度、病毒式传播,在内部至少我从没听谁真正预料到。随着 ChatGPT 以及随后 GPT-4 的发布,我们创造了一个“时刻”,形成了一种极难预测的势能,这在很多维度上塑造了今天的 OpenAI。
再比如,在那个时间点集中大量资源训练 GPT-4,这也是一个伴随巨大取舍的决定,但它在 OpenAI 历史中极其关键,事实证明是一个非常好的选择。
还有一次非常重要的赌博:押注“推理模型是未来”。当时完全没有把握,更多是基于第一性原理的思考和直觉。我们决定让 OpenAI 彻底转向这一方向,哪怕当时还看不到产品市场契合点。
最早的推理模型看起来很聪明,但几乎只适合做谜题,对现实用途帮助不大。直到后来,随着更多投入、工具使用能力的加入,它们才开始在研究和编程上变得极其有用。一旦出现了真正的 PMF,人类就非常擅长对一个“已经可行的东西”进行优化。但走到那一步,本身就是一段非常艰难、也非常值得研究的旅程。OpenAI 在那个阶段,真的通过了考试。
主持人:
你描述的这种“在不确定中持续加码投入”的过程非常有意思,也和你们现在对推理模型的判断高度相关。你是在什么时候真正意识到:这不只是好玩,而是可以规模化、走得很远?
Jerry:
说实话,我从一开始就相信它。这主要源于我对强化学习的信念。
从我加入 OpenAI 的第一天起,我就坚信:如果要走向 AGI,强化学习是必不可少的组成部分。问题从来不是“要不要”,而是“什么时候准备好、以及怎么做”。随着时间和研究推进,我们不断得到实验结果,进一步验证这条路径是对的。
Anthropic在编程上领先的原因:聚焦
当下最重要的技能是“管理初级工程师”
主持人:
OpenAI 一个很独特的地方在于:它既是一个追求 AGI 的研究实验室,又“意外地”做出了一个席卷全球的消费者产品。公司同时做消费级产品、企业产品和核心研究,这在内部是如何运作的?研究人员会不会被拉向太多不同方向?
Jerry:
有一点其实很清楚:OpenAI 的研究部门从一开始就与产品团队高度分离。公司的核心使命始终是“构建智能”。
确实有一个专门面向产品的研究团队,负责围绕具体产品指标优化模型;但绝大多数研究的关注点始终是:如何让模型变得更智能。至少在研究内部,这种“拉扯感”并不强。
真正复杂的是:OpenAI 站在我们这一代人可能经历的最大技术变革中心。机会实在太多了,几乎所有行业都会被 AI 重塑。如果什么都不做,反而显得浪费。
但这也带来了一个非常现实、非常危险的问题:聚焦。公司通常只能把一件极难的事做到极致,很少有组织能同时把多件极难的事都做到顶级。这对 OpenAI 来说是一个巨大的风险。
举个例子,OpenAI 曾经在“代码”方向上失去过一段时间的专注,把注意力更多放在消费者产品上,这确实付出了市场份额的代价。现在他们正在非常努力地追回来,最近的编码模型确实又变得非常强了,但这段分心是有成本的。
做 AI 的公司现在就像走进了糖果店,到处都是潜在价值极高的东西,很难克制自己不去多做。但每一个方向都有竞争,问题只在于:谁能把哪一件事做到真正正确。
主持人:
这也正好引出生态系统的问题。你提到了编码领域,Anthropic 为什么在代码上表现得如此突出?
Jerry:
一句话:聚焦。
我认识 Anthropic 的创始人,从他们还在 OpenAI 的时候就是如此。他们一直极其重视编程,并且坚信这是通往 AGI 的关键组成部分。我可以想象他们这些年在这一方向投入了多么专注的精力。
最新的 Claude 编码模型和代理,确实把这个愿景推得很远。他们说“公司里已经很少有人亲自写代码了”,我相信这不是夸张。
主持人:
这是否意味着未来的大模型实验室会自然走向分工,各自专注不同能力?
Jerry:
这取决于我们最终生活在哪一种世界里。
如果数据是核心驱动力,那这是一场零和博弈:你把数据投向某项技能,模型就在那项技能上更强,于是市场自然分裂、专门化。
如果研究才是关键,那研究具有一种“魔法属性”:一次成功的突破,可能让模型在所有领域同时跃迁,直接全面领先。
我们现在还无法确定哪一种未来会占上风。但我很确定:一定存在更通用的路径,只是不知道它有多难被找到。
甚至存在一种略微悲观、但并非不可能的情况:也许我们已经到了人类最后一个能亲手设计的模型,而接下来,模型会自己研究更好的模型。现在的编码代理已经足够强大,再加上巨量算力,这种推断并不荒谬。当然,我仍然希望人类还有一些关键的事情能继续亲自完成。
从本质上看,编程的历史就是不断提高抽象层级。编码代理可以被视为一种全新的、更高层的“编程语言”。
我认为未来很可能不再是人类直接敲代码,但软件仍然必须可靠。我们需要解决的问题是:当我们既不写、甚至不读代码时,如何确保系统做对了事?我相信这些问题是可以解决的。
当下最重要的技能,其实是“管理初级工程师”的能力。最好的管理者既深刻理解系统,又能放手让别人做决定——这恰恰也是与模型协作的最佳方式。
不和研究团队挨在一起,确实是应用公司的一种劣势。最终,成功的 AI 公司往往都会开始自己训练模型。应用公司可能从产品起步,逐步走向后训练、再训练,最终甚至建设自己的数据中心——这是一个自然的成长路径。
这并不意味着小公司没有机会。如果数据重要,就能靠数据差异化;如果研究重要,小公司也可能在约束中产生创新。专注某一领域,看到模型的不足,反而有可能做出一个在该领域极强、甚至在更广泛层面更优的模型,并由此成长为下一家巨头。
主持人:
但现实是,过去常见的问题在于:你可能刚刚领先了一点点,甚至只有“一秒钟”,下一代模型一发布,你又突然发现自己已经被远远甩在后面了。
Jerry:
竞争确实很残酷。我们在美国科技行业已经看到过很多次,大公司拥有大量结构性优势,这一点是真的。但与此同时,新的、非常成功的大公司也一直在不断涌现。所以这并不是没有希望,只是非常困难。
优秀AI研究者应具备的能力:
系统工程、理论、独立思考与反从众
主持人:
我想把话题转向人才生态和研究本身。你既是一位非常杰出的研究者,也和许多顶级研究者共事过。现在研究员的招聘竞争异常激烈,你当年也参与了 OpenAI 的大量招聘工作。那么今天,究竟是什么在决定研究者会选择去哪家公司?
Jerry:
这是个好问题。说到底,人是非常复杂的——现在甚至比模型还复杂。每个人的激励机制、想要的东西都不一样,所以我其实很难一概而论。
我觉得,招聘者不应该只问“我怎么才能吸引最多的人”,或者“怎样让自己看起来对所有研究者都最有吸引力”。这当然是个问题,但还有一个更重要的问题:什么样的研究者会真正想在这里工作?
因为试图取悦所有人几乎是不可能的。不同的人有不同的偏好、不同的价值观、不同的工作方式。与其如此,不如刻意构建一个在价值观和方法论上高度一致的团队。事实已经反复证明:目标一致、彼此对齐的团队,行动更快、效果更好。
所以这本质上是一个双向筛选的过程,找到“合适的人”和“合适的团队”,这会让个人更快乐、团队更成功,也会让这个团队随着时间变得越来越有吸引力。
主持人:
但我们也看到了一些很有意思的实验,比如 Meta 曾经用极其夸张的薪酬包来抢人。你怎么看这种做法?
Jerry:
不同公司有不同的组建研究团队的策略。某个阶段,Meta 显然处在供需曲线不利的一侧,在经历了一些挫折之后,他们需要用非常有吸引力的条件把人重新吸引回来。
“势能”和“动量”在人才市场中非常重要,也非常难扭转。一旦行业里形成一种“你不行了”的认知,就会导致你招不到人,而这本身又会进一步强化这种印象。
所以从这个角度看,这是一个合理、甚至是聪明的策略,用来打断负反馈循环。在 AI 对大型科技公司至关重要的背景下,Meta 也确实重建了一支新的团队,正在训练新的模型。整个行业都在关注这次尝试是否成功,以及它会如何决定这个实验室的未来。但无论如何,这一步确实给 Meta AI 注入了新的生命力。
主持人:
你做过大量开创性的 AI 研究,也和很多顶尖研究者共事过。在你看来,什么样的人才算是优秀的 AI 研究者?
Jerry:
这是个很难回答的问题。某种程度上,成功确实和“在对的时间出现在对的地方”有关。
但如果要谈基本功,我认为当下一个优秀的 AI 研究者,必须同时在系统与工程层面和理论层面都非常扎实。你需要理解计算机系统如何运作、神经网络如何训练,同时也要理解神经网络和优化的理论基础。只擅长其中一边,几乎不可能做到顶尖;而如果两边都至少“够好”,你的研究效率会直接提升一个数量级。
另一个极其重要、但经常被忽视的能力,是独立思考与反从众。人类有一种天然倾向,会逐渐向群体的中位观点收敛,而这几乎会扼杀真正的研究。我常说,如果你有 100 个研究者都在想同一件事,那你本质上只有 1 个研究者。
研究的本质就是去做“还不奏效的事情”,而这些事情,恰恰是大多数人暂时不相信的。要做到这一点,需要一种很稀缺的品质——勇气。敢于站出来说:“我们试试一条不同的路。”
在今天这个实验极其昂贵的时代,这尤其困难。很多机器学习实验的成本已经接近好莱坞电影。就像拍电影一样,你可以通过明星、特效来尽量降低风险,但最终,实验就是实验,结果永远不确定。
所以总结来说:深刻理解系统与理论、不过度随大流、并且有勇气坚持自己的判断,这是我心目中优秀 AI 研究者的核心特质。
静态模型永远不可能成为AGI
机器人出现“拐点时刻”需两到三年
主持人
我们通常会用一个快问快答来结束访谈。第一个问题:过去一年里,你在 AI 上改变过的一个重要看法是什么?
Jerry:
我最近一个重大的认知更新是:静态模型永远不可能成为 AGI。持续学习是必不可少的。
主持人:
这是因为静态模型在能力上做不到,还是因为从定义上,它就不符合 AGI 的要求?
Jerry:
更多是因为我们逐渐看清了模型仍然缺失的东西。它们已经在很多方面非常强了,但如果不能持续学习,在我看来,它们永远都只会是一个需要人类监督的工具,而不是真正的智能体。
主持人:
除了今天讨论的领域,AI 在其他方向也在快速进展。你觉得机器人领域出现类似 ChatGPT 的“拐点时刻”,大概还要多久?
Jerry:
我猜大概两到三年。
主持人:
这个判断挺激进的。很多人还在怀疑机器人领域到底有没有 scaling laws,数据够不够。
Jerry:
说实话,我觉得现实情况比大多数人想象的要好。已经有很多公司在取得实质性进展,只是这些成果需要时间发酵,也需要进一步投资。我对未来几年的机器人发展是相当乐观的。
主持人:
那在生物领域呢?
Jerry:
生物会慢得多。
主持人:
为什么比机器人慢?
Jerry:
从所需智能水平和操作精度来看,生物学复杂得多。这是一个需要更多基础性投入、才能真正开始起飞的领域。
主持人:
在模型持续进步的背景下,你觉得社会可能低估、或者讨论得还不够充分的一个影响是什么?
Jerry:
大规模的工作自动化,在未来几十年里几乎是不可避免的。一方面,我们确实在谈这个问题;但另一方面,我觉得我们谈得还远远不够认真。
世界会和今天非常不同,这对我来说几乎是确定的。社会变迁本身是缓慢的,但这种转变会非常怪异,也可能在某些方面非常痛苦。我们需要提前思考,怎样让这个过程尽可能不那么痛苦,因为未来的就业形态一定会和今天截然不同。
参考链接:
https://www.youtube.com/watch?v=XtPZGVpbzOE
——好文推荐——
Kimi新作:K2.5开源发布,视觉理解新王!视觉、编程、智能体齐登顶开源SOTA,几分钟创建100个子智能体,一段视频即可复刻网站
Anthropic强势出手,Clawdbot改名Moltbot!创建者自曝产品诞生故事;代码本身不值钱,不会编程也能做出「一人公司」,大量APP会自然消失
Karpathy:回不去了,被AI伤了自尊!自曝手写代码能力退化,公开与CC协作心得!马斯克:时代精神的总结!CC之父:不会出现垃圾代码末日


