OpenAI 前研究员:模型能自行突破困难才叫 AGI,最大问题是泛化;最重要技能是“管理初级工程师”,机器人出现“ChatGPT 时刻”只需两到三年

本文整理自对 OpenAI 前推理模型(o1、o3)关键架构师 Jerry Tworek 的深度访谈。Jerry 结合其在 OpenAI 七年的实战经验,剖析了 Scaling Law 的现状与瓶颈,指出当前模型虽在“明确训练过”的领域表现卓越,但缺乏处理未知分布的泛化能力。他提出 AGI 的核心标志是模型在遇到困难时具备“自我突破”的能力,并断言静态模型无法实现 AGI,持续学习是必经之路。此外,访谈还涉及了 OpenAI 的关键决策内幕、AI 编程对管理能力的重塑,以及对机器人和生物 AI 领域未来趋势的前瞻性预测。




原创 听雨 2026-01-30 14:57 北京

OpenAI 前研究员:模型能自行突破困难才叫 AGI,最大问题是泛化;最重要技能是“管理初级工程师”,机器人出现“ChatGPT 时刻”只需两到三年

规模化带来的收益很稳定,但问题在于泛化。

OpenAI 前研究员:模型能自行突破困难才叫 AGI,最大问题是泛化;最重要技能是“管理初级工程师”,机器人出现“ChatGPT 时刻”只需两到三年

OpenAI 前研究员:模型能自行突破困难才叫 AGI,最大问题是泛化;最重要技能是“管理初级工程师”,机器人出现“ChatGPT 时刻”只需两到三年

编辑 | 听雨

不得了,一位OpenAI前研究员出来说大实话了!

就在昨天,《Unsupervised Learning》节目邀请OpenAI前研究员Jerry Tworek做客。Jerry Tworek是OpenAI 推理模型o1、o3和Codex背后的关键架构师,参与了过去几年AI领域最关键的突破。他最近离开了OpenAI,原因是他希望去做一些在大型实验室里更难开展的研究方向。

在这期节目中,Jerry谈论了很多近期热议的话题:比如预训练和强化学习扩展的真实局限与前景、对AGI的时间预期如何、各大实验室的研究方向逐渐趋同、OpenAI在发布GPT-4时的关键押注、优秀的AI研究院标准是什么等等。

OpenAI 前研究员:模型能自行突破困难才叫 AGI,最大问题是泛化;最重要技能是“管理初级工程师”,机器人出现“ChatGPT 时刻”只需两到三年

Jerry表示,Scaling范式带来的收益是稳定可预测的,但它最终能否带来AGI,关键在于模型的泛化能力如何。他指出,现在愈发存在一种现象:我们正在变得极其擅长我们明确训练过的东西

他也坦言,自己之前对于AGI非常乐观,认为只要一直做强化学习就能达到AGI。但做了一段时间之后,他的时间预期变得保守了。最大的观念转变在于:如果模型无法在遇到困难时自行突破、无法把自己从卡住的状态中解救出来,就很难称它为 AGI

自2019年加入以来,Jerry已经在OpenAI有了六七年工作经历。从一个只有三四十人的小实验室起步,发展到世界上最大的公司之一,Jerry坦言在OpenAI的经历“真的很疯狂”,而且他当初相信这里真的是能“构建AGI”的地方。

他表示自己记忆中OpenAI最关键的决策有两个:一个是集中大量资源训练 GPT-4,这是一个伴随巨大取舍的决定,但它在 OpenAI 历史中极其关键,事后证明是一个非常好的选择;另一个是押注“推理模型是未来”,让OpenAI完全转向这个方向,发布了o1和o3。

Jerry透露,OpenAI 的研究部门从一开始就与产品团队高度分离。公司的核心使命始终是构建智能。对一家公司来说,通常只能把一件极难的事做到极致,很少能同时把多件极难的事都做到顶级。他也认可,Anthropic在编程方面做到了领先,关键就在于方向的聚焦。

Jerry认为,当下最重要的技能,其实是管理初级工程师的能力。最好的管理者既深刻理解系统,又能放手让别人做决定——这恰恰也是与模型协作的最佳方式。

Jerry还分享了他近期更新的一个重大认知:静态模型永远不可能成为 AGI,持续学习是必不可少的。此外,他还认为机器人领域出现类似 ChatGPT 拐点时刻”,大概需要两到三年。

以下是对话内容全文,有部分删减和润色:

Scaling范式还能走多远:

规模化带来的收益很稳定,问题在于泛化

主持人

你在 OpenAI 推动了推理模型的引入,以及强化学习的规模化。那么从现有的 scaling 范式来看,我很好奇你的判断:我们现在靠预训练 强化学习,能力大概还能走多远?这条路线最终能把模型带到什么程度?

Jerry

肯定能把我们带到某个地方。问题是,我们该如何给那个地方命名?

主持人

你可以来定义。

Jerry

但对大多数从业者来说,有一个非常现实、而且相当震撼的事实:规模化带来的收益是真实的、可预测的,而且相当稳定

每当我们扩大预训练规模,我们就会得到更好的预训练模型——它们对世界的了解更多、对语言的理解更深、对围绕它们的一切建立起更完整的语言化世界模型

同样地,扩大强化学习的规模,也会让模型在获取我们想要的技能方面做得更好。

在这两种情况下,你基本都会得到你所训练的东西

如果你想要一个擅长下一个 token 预测的模型,那就大规模做预训练,你会得到一个在 next-token prediction 上非常、非常强的模型;如果你想要某一组特定技能,那就对这些技能做强化学习,模型也会在这些任务上变得非常、非常优秀。

从某种意义上说,几乎没有明显的上限。现在大家都知道:只要你在意某个技能,你就对它做强化学习,模型就能把它学到非常好——事情基本就是这么简单,而且确实有效。

真正让人犹豫、或者感到卡住的地方在于:这些模型的泛化能力如何?它们在训练分布之外表现如何?

对于预训练语料里根本不存在的知识,模型能不能处理?大概率不能。对于你从未用强化学习训练过的任务,它们表现如何?大概率也不太好。

所以,这些几乎就是当下 AI 世界里剩下的核心问题:我们正在变得极其擅长我们明确训练过的东西

主持人

这似乎引出了两种不同的观点:一种认为,我们其实才刚刚开始探索强化学习的潜力,随着继续扩展规模,泛化能力自然会逐渐显现,这两条 scaling 路线就足以带我们走到很远;另一种则认为,想要继续突破,可能必须引入全新的范式。你更偏向哪一边?

Jerry

我觉得这在很大程度上是一个经济性问题。很明显,规模化在很大程度上意味着增加数据,而没有数据,规模化几乎是行不通的。

如果你不断加入你想让模型擅长的数据,那模型就会在这些事情上变得更好。

你现在看到的现象是:几乎每个季度、每个实验室都会发布一个更强的模型。

这背后大多数时候意味着三件事:

第一,更多算力;

第二,更重要的,是更多数据

第三,也是最关键的,这些数据是针对上一代模型的短板而精心定制的

这是一种极其强大的方法论:不断迭代,就能训练出越来越好的模型。从这个角度看,如果你持续不断地补充你希望模型会做的事情的数据,最终你确实可以得到一个在这些事情上都表现不错的模型。

但这个循环在某些方面是很慢的。真正的问题在于:有没有可能更快?

在现有训练范式下,我确实相信,只要不断加入目标数据,模型就会学会相应的技能,并且会有一定程度的泛化。

但关键问题是:有没有别的研究方向,可以用更少的数据,得到更多的能力?有没有更根本性的方式,让模型更好地利用它已经见过、已经学到的东西进行泛化?

主持人

我们稍后再回到这些潜在的新方向。先帮听众建立一个背景:以你自己的经验来看,强化学习目前在哪些地方好用,在哪些地方不好用

很多人会提到容易验证不容易验证的任务差异。你自己的心智模型是什么?哪些事情是今天的 RL 真正能有效做的?

Jerry

容易验证 难以验证这个问题,本质上接近于:我们能否获得一个有意义的质量信号

 OpenAI,我们在很多方面已经取得了相当不错的进展,让模型在各种任务上通过强化学习变得更好。事实上,强化学习可以用于非常多的事情

但有些事情,本质上就很难判断什么是,什么是不好,或者你需要等待非常长的时间才能得到反馈。

比如写一本书:你当然可以用一些简单的方法判断它好不好,但真正可靠的信号,可能要等它上市、看看有多少人愿意读、愿意买。

即便如此,这个信号也并不总是可靠——可能评论家一致认为这是一本杰作,但由于营销失败,根本卖不出去。

那我们要如何对写一本好书做强化学习?这本身就很难回答。人类是如何学会写好书的?这同样是一个极其复杂的问题。

创业也是类似的例子。很多公司在早期阶段启动,我们怎么知道哪一家是好公司?往往要五年、十年之后才能看清楚。创业者早期做的某个决策到底是对是错?还是说,成功很大程度上来自运气?在这种场景下,直接做强化学习是非常、非常困难的。

不过,只要你能得到任何形式的反馈,原则上你就可以用它来做强化学习。

主持人

你参与的模型在编程竞赛、数学竞赛等任务上的表现,让很多人感到震撼。但大家仍在试图建立直觉:现实世界的大多数任务,更像编程和数学,还是更像写书、创业这种极难构建奖励信号、也难以反复试验的任务?比如会计、医学、法律——你直觉上觉得它们更接近哪一类?

Jerry

归根结底,还是一个问题:你有多容易判断你做得好不好。即便对人类来说,判断一本书写得好不好,本身就很难。

如果你是一个会计团队的管理者,而这个领域有明确的规则,你可以相对容易地判断哪个会计做得好,哪个做得不好。只要规则清晰,你就可以用这些规则训练几乎任何系统。

医学也是如此。我最近思考了很多关于外科医生的问题:那里确实存在明确的规则,也存在明确的反馈信号——病人是否在手术后存活,这本身就是一个非常强的成功标准。

更有意思的是:真正顶尖的医生,往往会在关键时刻违背既有规则。他们凭借经验判断,必须以一种前所未有的方式来进行手术。他们打破惯例,结果却成功了,挽救了病人。

我认为,模型在足够时间和足够尝试次数的前提下,也有可能做到类似的事情。

真正的问题在于:模型需要多长时间,才能真正达到这种水平?

主持人

如果我们想让强化学习在更多人类关心的任务上具备泛化能力,你认为接下来真正需要攻克的前沿问题是什么?

Jerry

我认为,泛化本质上是模型本身的属性。训练时,你真正决定的是训练目标;最终,你得到的,基本就是你所优化的那个目标。问题在于:你还能顺带得到多少额外能力?

确实存在一些学习方法——即便是 next-token prediction它们几乎不泛化,比如最近邻分类。从理论上讲,它能解决任何机器学习问题,但泛化能力极差,因为它构建的世界表示极其简单。

神经网络,尤其是大规模训练的神经网络,神奇之处在于:它们学到了非常有用、非常抽象的世界表示。有时我们甚至会觉得这是白捡的:为什么一个在互联网上训练的巨大 Transformer,居然能如此深入地理解现实世界中的各种概念?

这种泛化能力,来自 Transformer 架构、大量参数,以及反复施加的梯度下降。这本身就像一种魔法。问题是:是否存在一种不同的模型,能够泛化得更好?几乎可以确定,答案是。真正的问题是——它会长什么样?

如果模型遇到困难时无法自行突破,

很难称之为“AGI”

主持人

我听你以前提到过,你在做强化学习规模化之后,对 AGI 的一些时间预期变得更保守了。为什么?

Jerry 

我以前确实是一个非常乐观的人,觉得只要对模型做强化学习,就能走到 AGI

也许我们已经做到了。也许它已经是 AGI ——这完全是一个非常主观的判断。因为“AGI 是什么,往往取决于我们还缺什么。

现在的模型已经能解决几乎所有奥林匹克级别的问题、各种竞赛问题。甚至已经开始在解决一些前所未有的数学问题。你每周都能看到 GPT-5.2 之类的例子。

那什么时候才会有一个大家都会同时点头说是的时刻?我不知道。

我是编程模型的重度用户。它们依然会犯错。它们能帮我完成一些原本要花非常长时间的工作,是极其强大的生产力放大器。但与此同时,也存在明显的失败场景。当模型失败时,你会很快感到一种无力感。你可以反复粘贴错误信息、告诉模型这个不行,换一种方式,有时候甚至要给它精神鼓励

但本质上,模型并没有一种机制,能够在失败后真正更新自己的信念和内部知识。这大概是我观念上最大的变化:如果模型无法在遇到困难时自行突破、无法把自己从卡住的状态中解救出来,我就很难称它为 AGI

真正的智能,会不断尝试、不断探测问题的结构,直到找到解决方案。而当前的模型,还做不到这一点。

主持人

这正好过渡到一些超出纯粹预训练和强化学习规模化的研究方向。你刚才谈到的很多问题,其实和持续学习非常接近——这也是最近越来越多被公开讨论的话题。我很好奇,从一个宏观层面来看,你会如何向听众解释:要让持续学习真正可行,最核心、最需要被解决的一组问题是什么?

Jerry

最核心的一点在于:如果你希望模型能够持续地被训练,那你就必须确保模型不会崩溃,不会进入某种奇怪的、失控的状态。

深度学习训练失败的方式有很多种,而现在大型实验室里相当大一部分工作,其实都是在让模型保持在轨道上,让训练过程保持健康。

从根本上说,这是一件非常脆弱的事情——训练并不是一个天然会顺利进行的过程,你必须持续投入大量精力,训练才不会炸掉。如果你不这样做,最终就很难得到一个好模型。

而这在我看来,与人类学习的方式有着本质上的不同。人类的学习过程要反脆弱得多,也更鲁棒。人类可以在学习过程中不断自我修复、调整,而不是轻易崩溃。

我在做强化学习研究时,常常会感到惊讶:人类是多么少见地会在学习新信息后突然宕机,开始胡言乱语,或者陷入某种奇怪的认知状态;而 AI 模型却相当容易发生这种情况。

这正是研究者们一直在试图解决的问题——无论是从理论还是实践角度:如何对抗这种不稳定性。

我认为,这种训练过程本身的根本鲁棒性,很可能正是实现持续学习所必需的关键前提。

主持人

在你看来,关于持续学习的一些有意思的想法,有多少是其实已经存在一段时间、被反复讨论过的?又有多少是真正全新的研究问题?

Jerry

我觉得,作为研究者,一个最重要、也最值得反复问自己的问题是:为什么这个问题到现在还没有被解决?

持续学习显然还没有被真正解决,那么问题就在于:为什么?

世界上有这么多聪明的研究者,有这么多卓越的想法,但至今没有人真正攻破持续学习,这背后一定有原因。

关于这个问题,有很多不同的假设。但其中一个我认为非常根本的原因是:这很可能是一个必须在规模上才能解决的问题,至少要达到某个阈值规模。

而现在,真正具备条件去做这种研究的顶级实验室数量非常有限;它们能同时推进的研究项目也有限。

所以很可能,并不是没有正确方向,而是如果这是一个可以在小规模下被彻底验证、被根本性突破的问题,或许早就已经有人做出来了。

那它要么是一个极其复杂、理论上非常困难的问题;要么就是需要已经非常大的模型和算力资源,而这些只掌握在极少数实验室手中。

而这些少数实验室,很可能只是还没来得及、或者还没选择去探索某一条特定的路径——因为它们当时正忙于别的事情。

主持人

我以前听你说过这样一种观点:在 AI 研究中,有些想法还没到合适的时间,但它们依然是好想法。强化学习本身就是一个例子——在拥有大规模预训练模型作为基础之后,它才真正爆发。

所以听起来,你的直觉是:现在其实已经存在一些非常好的想法,只是如果它们真的能被放到足够大的规模上去尝试,可能会对这一类问题产生巨大帮助。

Jerry

是的,完全同意。

各大实验室在研究方向上高度趋同

主持人

你也提到过一个现象:各大实验室在研究方向上正在高度趋同,大家做的事情越来越相似。我不知道这是否也是你过去两三年的真实感受,但当你当年主导某些工作时,那些确实是全新的方向,很多实验室在当时是有点措手不及的。

你能不能谈谈过去一年左右这种收敛的趋势?这对你来说意外吗?

Jerry

在强化学习中,有一个非常经典、被充分研究过的权衡:探索与利用

什么时候应该尝试新的东西?什么时候应该极致优化你已经很擅长的东西?这个权衡本身没有标准答案,因为你永远不知道未知的东西到底值不值得探索。

从根本上说,问题在于:是否存在一条与当前路径截然不同的路线,能带来巨大收益?但如果你并不了解整个搜索空间的地形,这个问题本身就极其困难。

我记得曾经有人跟我说过一句话:为什么所有商用飞机看起来都长得差不多?尽管制造它们的公司并不止一家。原因在于:在经济约束下,这基本上已经是最有效的设计了。

今天各大实验室的行为,其实也受到非常强的经济力量驱动。如果你想参与竞争,你就必须在尽可能低的成本下,做出尽可能好的模型而在这个目标下,现有的技术组合已经相当高效。

客户可以随时切换模型,最终获益的是用户——这也进一步推动实验室不断在同一条路径上做效率优化。

当然,这里始终存在一个探索与利用的问题。我们要不要出海航行,看看远方有没有完全不同的大陆?要不要训练一种彻底不同的模型?

这么做,很可能会分散注意力,让你无法持续把现有方法做得更好、更高效。

但另一方面,也许那里存在着 10 倍、甚至 100 倍的突破。

最终,这取决于一种信念和判断:我们愿意为探索未知承担多大的风险?

主持人

正如你所说,现在确实存在一条非常清晰的路线:不断往强化学习和各类任务中加数据,持续提升在经济上有价值的能力。

每个实验室都有一张明确的 roadmap,这反而让孤注一掷去赌一个全新方向变得更难。而当年预训练似乎接近瓶颈时,反而更容易鼓励探索。

Jerry

是的,不同历史阶段确实不一样。有些时期,探索的空间更大,容错率也更高;而当竞争变得极其激烈时,就会变得很像一个囚徒困境”——只要你选择与众不同,就很容易在市场竞争中失去优势。

实验室的先发优势很重要

主持人

你觉得实验室是否一定要成为下一个重大突破的发现者?我之所以这么问,是因为这些想法往往扩散得非常快。比如你在推理模型上的开创性工作,如今已经有好几家实验室都有很强的推理模型。

我甚至在想:即使突破发生在别的地方,实验室是不是也完全可以接受?因为这些想法最终都会被吸收进现有的商业体系。

Jerry

思想的扩散当然是好事,领先一步的价值不应该被低估。

我们已经见过这样的例子:曾经很多人认为 OpenAI 不可能成功,但它在大规模 Transformer 预训练上领先一步,最终成为世界上最成功的公司之一。

同样地,OpenAI 率先解决了大规模强化学习的问题,这使得它直到今天,依然拥有业内最强的强化学习研究体系之一,能够做出更大胆、更具雄心的事情。

即便想法会扩散,先发优势依然极其强大——如果你能维持住这种优势,它甚至可能长期存在。

我最近在读一本关于半导体制造的书。很多最早的关键技术发明都发生在美国,随后逐渐扩散到世界各地。但与此同时,也存在某些阶段性的领先优势,是其他国家始终无法追赶的——这种早期下注、持续投入所带来的复利效应,会在很长时间内发挥作用。

并不是只有一个国家能做半导体,但也绝不是每个国家都能。每一次产业变迁中,总会有新的成功者、新的失败者;有些老公司成功转型,有些则被淘汰——这就是进步中的达尔文过程。

主持人

消费者和企业往往会记住第一个带来魔法般体验的公司。你们在 ChatGPT 上显然经历过这一点。你在强化学习上取得了如此多的进展,而这一方向至今仍在持续推进,但你最终选择离开 OpenAI,去探索新的研究领域。

我很好奇:你是什么时候开始意识到,自己可能想要离开的?又是如何真正做出这个决定的?

Jerry

这并不是一个突然发生的决定,而是一个在内心中慢慢生长出来的过程。

OpenAI 并不是一个容易离开的地方——我在那里有很多朋友、很多共同的历史,我的人生有很大一部分是在那里建立的。我曾经非常努力地尝试让一切继续运转,寻找不同的可能性。

但作为研究者,如果有一天你醒来,发现自己不再真正热爱正在做的事情,不再对它感到极度兴奋,那也许就是时候去尝试别的东西了。

如果你没有 100% 的热情,是几乎不可能做出最好的研究工作的。我在 OpenAI 曾有过很多充满无限热情的日子,但到后来,这种感觉变得越来越难以维持。

主持人

那现在是什么在给你能量?

Jerry

从最根本的层面来说,我当初加入 OpenAI,是因为我相信强化学习是通向 AGI 的必要组成部分,我真的、非常想让它发生。

推理模型引入这个世界,对我来说是一种范式级的转变。某种程度上,我想再次追逐那种感觉——找到当下模型训练方式中缺失的一块,并设法让它成为主流。但一旦你做过那样的事情,就很难再获得同等强度的冲击感

所以我现在想要的是一些自由,去思考、去探索,去尝试解决那些最核心、最重要的问题。

主持人

你现在是带着很多具体假设在推进,还是更多在拉远视角,重新观察整个领域?

Jerry

通常来说,真正重要的问题,并不是你在做了七年机器学习之后才突然发现的。

你其实早就知道哪些问题最关键。真正困难的是:如何用一种与所有人不同的方式去解决它们。因为如果它们能被常规方式解决,早就已经有人成功了。

OpenAI两次关键决策:

集中资源训练GPT-4,押注“推理模型是未来”

主持人

你曾说过,自 2019 年加入 OpenAI 以来,几乎每一年都像是一家不同的公司。我很想请你回顾一下这六七年的演变,讲讲你眼中的 OpenAI 成长叙事。

Jerry

从一个只有三四十人的小实验室起步,而且从一开始就完全开放,这是一个极其大胆的选择。我们当时真的相信,这里会是构建 AGI 的地方,会为世界带来数字智能的普遍收益。

从最初几个人做一些看起来很酷、但极其野心勃勃的项目,到今天发展成世界上最大的公司之一,做出了几乎所有人都知道、每天都在用的产品,甚至已经很难想象生活中没有它——这段经历真的非常疯狂。

你也知道,OpenAI 的管理层和组织结构在过去一年里发生了相当大的变化。你每天共事的人变了,公司规模变了,研究主题也在不断变化。早期甚至根本没有预训练这个概念,后来有一段时间几乎一切都围绕预训练展开;再之后,它有点变成了我们老 OpenAI”的样子。现在则更平衡一些,既有预训练,也有其他方向。

很多人离开 OpenAI,去创办公司、开启新的人生阶段;与此同时,也有大量优秀的新鲜血液加入,继续在内部做非常出色的研究。这是一家不断自我重塑、并在每个阶段都成功成长的公司。

我常常会想,那些伟大的成功公司,它们的故事一定很精彩,而能亲历这些阶段一定是种难以复制的体验。我觉得自己参与了 OpenAI 相当早期的一段历程,这种经历真的很难和其他任何事情相比。

主持人

大家都很期待未来会有人系统地写下 OpenAI 这一段历史。通常这种故事都会聚焦在那些关键但极其艰难的决定——那些可能向不同方向发展的分岔点。对你来说,有没有哪些特别关键的决策,让你印象深刻?

Jerry

这是个好问题。我其实只真正参与了其中一部分,很多决定我可能只是背景角色

比如,是否要向世界发布 ChatGPT 的讨论——你可能也听说过,它后来的流行程度、病毒式传播,在内部至少我从没听谁真正预料到。随着 ChatGPT 以及随后 GPT-4 的发布,我们创造了一个时刻,形成了一种极难预测的势能,这在很多维度上塑造了今天的 OpenAI

再比如,在那个时间点集中大量资源训练 GPT-4,这也是一个伴随巨大取舍的决定,但它在 OpenAI 历史中极其关键,事实证明是一个非常好的选择。

还有一次非常重要的赌博:押注推理模型是未来。当时完全没有把握,更多是基于第一性原理的思考和直觉。我们决定让 OpenAI 彻底转向这一方向,哪怕当时还看不到产品市场契合点。

最早的推理模型看起来很聪明,但几乎只适合做谜题,对现实用途帮助不大。直到后来,随着更多投入、工具使用能力的加入,它们才开始在研究和编程上变得极其有用。一旦出现了真正的 PMF,人类就非常擅长对一个已经可行的东西进行优化。但走到那一步,本身就是一段非常艰难、也非常值得研究的旅程。OpenAI 在那个阶段,真的通过了考试。

主持人

你描述的这种在不确定中持续加码投入的过程非常有意思,也和你们现在对推理模型的判断高度相关。你是在什么时候真正意识到:这不只是好玩,而是可以规模化、走得很远?

Jerry

说实话,我从一开始就相信它。这主要源于我对强化学习的信念。

从我加入 OpenAI 的第一天起,我就坚信:如果要走向 AGI,强化学习是必不可少的组成部分。问题从来不是要不要,而是什么时候准备好、以及怎么做。随着时间和研究推进,我们不断得到实验结果,进一步验证这条路径是对的。

Anthropic在编程上领先的原因:聚焦

当下最重要的技能是“管理初级工程师”

主持人

OpenAI 一个很独特的地方在于:它既是一个追求 AGI 的研究实验室,又意外地做出了一个席卷全球的消费者产品。公司同时做消费级产品、企业产品和核心研究,这在内部是如何运作的?研究人员会不会被拉向太多不同方向?

Jerry

有一点其实很清楚:OpenAI 的研究部门从一开始就与产品团队高度分离。公司的核心使命始终是构建智能

确实有一个专门面向产品的研究团队,负责围绕具体产品指标优化模型;但绝大多数研究的关注点始终是:如何让模型变得更智能。至少在研究内部,这种拉扯感并不强。

真正复杂的是:OpenAI 站在我们这一代人可能经历的最大技术变革中心。机会实在太多了,几乎所有行业都会被 AI 重塑。如果什么都不做,反而显得浪费。

但这也带来了一个非常现实、非常危险的问题:聚焦。公司通常只能把一件极难的事做到极致,很少有组织能同时把多件极难的事都做到顶级。这对 OpenAI 来说是一个巨大的风险。

举个例子,OpenAI 曾经在代码方向上失去过一段时间的专注,把注意力更多放在消费者产品上,这确实付出了市场份额的代价。现在他们正在非常努力地追回来,最近的编码模型确实又变得非常强了,但这段分心是有成本的。

 AI 的公司现在就像走进了糖果店,到处都是潜在价值极高的东西,很难克制自己不去多做。但每一个方向都有竞争,问题只在于:谁能把哪一件事做到真正正确。

主持人

这也正好引出生态系统的问题。你提到了编码领域,Anthropic 为什么在代码上表现得如此突出?

Jerry

一句话:聚焦

我认识 Anthropic 的创始人,从他们还在 OpenAI 的时候就是如此。他们一直极其重视编程,并且坚信这是通往 AGI 的关键组成部分。我可以想象他们这些年在这一方向投入了多么专注的精力。

最新的 Claude 编码模型和代理,确实把这个愿景推得很远。他们说公司里已经很少有人亲自写代码了,我相信这不是夸张。

主持人

这是否意味着未来的大模型实验室会自然走向分工,各自专注不同能力?

Jerry

这取决于我们最终生活在哪一种世界里。

如果数据是核心驱动力,那这是一场零和博弈:你把数据投向某项技能,模型就在那项技能上更强,于是市场自然分裂、专门化。

如果研究才是关键,那研究具有一种魔法属性:一次成功的突破,可能让模型在所有领域同时跃迁,直接全面领先。

我们现在还无法确定哪一种未来会占上风。但我很确定:一定存在更通用的路径,只是不知道它有多难被找到。

甚至存在一种略微悲观、但并非不可能的情况:也许我们已经到了人类最后一个能亲手设计的模型,而接下来,模型会自己研究更好的模型。现在的编码代理已经足够强大,再加上巨量算力,这种推断并不荒谬。当然,我仍然希望人类还有一些关键的事情能继续亲自完成。

从本质上看,编程的历史就是不断提高抽象层级。编码代理可以被视为一种全新的、更高层的编程语言

我认为未来很可能不再是人类直接敲代码,但软件仍然必须可靠。我们需要解决的问题是:当我们既不写、甚至不读代码时,如何确保系统做对了事?我相信这些问题是可以解决的。

当下最重要的技能,其实是管理初级工程师的能力。最好的管理者既深刻理解系统,又能放手让别人做决定——这恰恰也是与模型协作的最佳方式。

不和研究团队挨在一起,确实是应用公司的一种劣势。最终,成功的 AI 公司往往都会开始自己训练模型。应用公司可能从产品起步,逐步走向后训练、再训练,最终甚至建设自己的数据中心——这是一个自然的成长路径。

这并不意味着小公司没有机会。如果数据重要,就能靠数据差异化;如果研究重要,小公司也可能在约束中产生创新。专注某一领域,看到模型的不足,反而有可能做出一个在该领域极强、甚至在更广泛层面更优的模型,并由此成长为下一家巨头。

主持人

但现实是,过去常见的问题在于:你可能刚刚领先了一点点,甚至只有一秒钟,下一代模型一发布,你又突然发现自己已经被远远甩在后面了。

Jerry

竞争确实很残酷。我们在美国科技行业已经看到过很多次,大公司拥有大量结构性优势,这一点是真的。但与此同时,新的、非常成功的大公司也一直在不断涌现。所以这并不是没有希望,只是非常困难。

优秀AI研究者应具备的能力:

系统工程、理论、独立思考与反从众

主持人

我想把话题转向人才生态和研究本身。你既是一位非常杰出的研究者,也和许多顶级研究者共事过。现在研究员的招聘竞争异常激烈,你当年也参与了 OpenAI 的大量招聘工作。那么今天,究竟是什么在决定研究者会选择去哪家公司?

Jerry

这是个好问题。说到底,人是非常复杂的——现在甚至比模型还复杂。每个人的激励机制、想要的东西都不一样,所以我其实很难一概而论。

我觉得,招聘者不应该只问我怎么才能吸引最多的人,或者怎样让自己看起来对所有研究者都最有吸引力。这当然是个问题,但还有一个更重要的问题:什么样的研究者会真正想在这里工作?

因为试图取悦所有人几乎是不可能的。不同的人有不同的偏好、不同的价值观、不同的工作方式。与其如此,不如刻意构建一个在价值观和方法论上高度一致的团队。事实已经反复证明:目标一致、彼此对齐的团队,行动更快、效果更好。

所以这本质上是一个双向筛选的过程,找到合适的人合适的团队,这会让个人更快乐、团队更成功,也会让这个团队随着时间变得越来越有吸引力

主持人

但我们也看到了一些很有意思的实验,比如 Meta 曾经用极其夸张的薪酬包来抢人。你怎么看这种做法?

Jerry

不同公司有不同的组建研究团队的策略。某个阶段,Meta 显然处在供需曲线不利的一侧,在经历了一些挫折之后,他们需要用非常有吸引力的条件把人重新吸引回来。

势能动量在人才市场中非常重要,也非常难扭转。一旦行业里形成一种你不行了的认知,就会导致你招不到人,而这本身又会进一步强化这种印象。

所以从这个角度看,这是一个合理、甚至是聪明的策略,用来打断负反馈循环。在 AI 对大型科技公司至关重要的背景下,Meta 也确实重建了一支新的团队,正在训练新的模型。整个行业都在关注这次尝试是否成功,以及它会如何决定这个实验室的未来。但无论如何,这一步确实给 Meta AI 注入了新的生命力。

主持人

你做过大量开创性的 AI 研究,也和很多顶尖研究者共事过。在你看来,什么样的人才算是优秀的 AI 研究者?

Jerry

这是个很难回答的问题。某种程度上,成功确实和在对的时间出现在对的地方有关。

但如果要谈基本功,我认为当下一个优秀的 AI 研究者,必须同时在系统与工程层面理论层面都非常扎实。你需要理解计算机系统如何运作、神经网络如何训练,同时也要理解神经网络和优化的理论基础。只擅长其中一边,几乎不可能做到顶尖;而如果两边都至少够好,你的研究效率会直接提升一个数量级。

另一个极其重要、但经常被忽视的能力,是独立思考与反从众。人类有一种天然倾向,会逐渐向群体的中位观点收敛,而这几乎会扼杀真正的研究。我常说,如果你有 100 个研究者都在想同一件事,那你本质上只有 个研究者。

研究的本质就是去做还不奏效的事情,而这些事情,恰恰是大多数人暂时不相信的。要做到这一点,需要一种很稀缺的品质——勇气。敢于站出来说:我们试试一条不同的路。

在今天这个实验极其昂贵的时代,这尤其困难。很多机器学习实验的成本已经接近好莱坞电影。就像拍电影一样,你可以通过明星、特效来尽量降低风险,但最终,实验就是实验,结果永远不确定。

所以总结来说:深刻理解系统与理论、不过度随大流、并且有勇气坚持自己的判断,这是我心目中优秀 AI 研究者的核心特质。

静态模型永远不可能成为AGI

机器人出现“拐点时刻”需两到三年

主持人

我们通常会用一个快问快答来结束访谈。第一个问题:过去一年里,你在 AI 上改变过的一个重要看法是什么?

Jerry

我最近一个重大的认知更新是:静态模型永远不可能成为 AGI。持续学习是必不可少的。

主持人

这是因为静态模型在能力上做不到,还是因为从定义上,它就不符合 AGI 的要求?

Jerry

更多是因为我们逐渐看清了模型仍然缺失的东西。它们已经在很多方面非常强了,但如果不能持续学习,在我看来,它们永远都只会是一个需要人类监督的工具,而不是真正的智能体。

主持人

除了今天讨论的领域,AI 在其他方向也在快速进展。你觉得机器人领域出现类似 ChatGPT 拐点时刻,大概还要多久?

Jerry

我猜大概两到三年。

主持人

这个判断挺激进的。很多人还在怀疑机器人领域到底有没有 scaling laws,数据够不够。

Jerry

说实话,我觉得现实情况比大多数人想象的要好。已经有很多公司在取得实质性进展,只是这些成果需要时间发酵,也需要进一步投资。我对未来几年的机器人发展是相当乐观的。

主持人

那在生物领域呢?

Jerry

生物会慢得多。

主持人

为什么比机器人慢?

Jerry

从所需智能水平和操作精度来看,生物学复杂得多。这是一个需要更多基础性投入、才能真正开始起飞的领域。

主持人

在模型持续进步的背景下,你觉得社会可能低估、或者讨论得还不够充分的一个影响是什么?

Jerry

大规模的工作自动化,在未来几十年里几乎是不可避免的。一方面,我们确实在谈这个问题;但另一方面,我觉得我们谈得还远远不够认真。

世界会和今天非常不同,这对我来说几乎是确定的。社会变迁本身是缓慢的,但这种转变会非常怪异,也可能在某些方面非常痛苦。我们需要提前思考,怎样让这个过程尽可能不那么痛苦,因为未来的就业形态一定会和今天截然不同。

参考链接:

https://www.youtube.com/watch?v=XtPZGVpbzOE

——好文推荐——

Kimi新作:K2.5开源发布,视觉理解新王!视觉、编程、智能体齐登顶开源SOTA,几分钟创建100个子智能体,一段视频即可复刻网站

Anthropic强势出手,Clawdbot改名Moltbot!创建者自曝产品诞生故事;代码本身不值钱,不会编程也能做出「一人公司」,大量APP会自然消失

Karpathy:回不去了,被AI伤了自尊!自曝手写代码能力退化,公开与CC协作心得!马斯克:时代精神的总结!CC之父:不会出现垃圾代码末日

OpenAI 前研究员:模型能自行突破困难才叫 AGI,最大问题是泛化;最重要技能是“管理初级工程师”,机器人出现“ChatGPT 时刻”只需两到三年

阅读原文

跳转微信打开


AI 前线

LeCun 离职后不止创一份业!押注与大模型不同的路线,加入硅谷初创董事会

2026-1-31 18:10:58

AI 前线

智能体开启购物模式,重新定义智能,更出色的图片文字渲染,以及更多内容……

2026-1-31 18:11:08

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索