深度|OpenAI Agent 团队:未来属于单一的、无所不知的超级 Agent,而不是功能割裂的工具集合,所有技能都存在着正向迁移

本文深度访谈了 OpenAI ChatGPT Agent 团队的核心成员,详细介绍了他们如何通过融合前 Deep Research 和 Operator 团队的能力,构建出一个能够执行长时间复杂任务的强大 AI Agent。该 Agent 的核心在于获得了一台虚拟计算机的访问权限,集成了文本浏览器、GUI 浏览器、终端(用于运行代码、分析文件、调用 API)等多种工具,并且所有工具共享状态,实现了高效与灵活的无缝切换。团队强调,Agent 的训练关键在于“强化学习 + 共享工具集”,模型通过自我实验学习如何有效使用这些工具。文章指出,未来属于单一的、无所不知的超级 Agent,而非功能割裂的工具集合,因为所有技能之间都存在着巨大的正向迁移。访谈还探讨了 Agent 在真实世界中的应用案例(如深度研究、在线购物、数据分析、幻灯片制作),并讨论了安全挑战(如外部副作用和生物风险)及应对措施。团队规模精简,研究与应用团队紧密协作,并认为 Agent 的成功得益于计算规模的巨大提升,解决了过去类似项目(如'World of Bits')在扩展性上的瓶颈。文章最后展望了 Agent 在多轮对话、个性化、记忆能力以及主动性方面的未来发展。




深度|OpenAI Agent 团队:未来属于单一的、无所不知的超级 Agent,而不是功能割裂的工具集合,所有技能都存在着正向迁移

图片来源:Sequoia Capital

Z Highlights

  • 我们建模的方式,是模仿你要求别人为你完成任务时的互动。用户和Agent都能够发起沟通,这一点非常重要。你可以中途打断它、纠正它,它也能向你提出澄清问题。

  • 成功的关键是强化学习 共享工具集,我们基本上是把所有工具都给了模型,然后把它锁在一个房间里让它自己实验,它自己就能弄明白该怎么用。模型真正的瓶颈在于与真实世界的接触——网站会宕机,容量会受限。所以我们不得不在成千上万个虚拟机上进行训练。

  • 未来属于单一的、无所不知的超级Agent,而不是功能割裂的工具集合,因为所有技能之间都存在着巨大的正向迁移。

  • 我们希望能看到许多我们自己都未曾想到的新用例,这正是我们将Agent设计得如此开放和模糊的原因。

本次访谈由红杉资本的Sonya HuangLauren Reeder共同发起,深入探讨了OpenAI如何将Deep ResearchOperator两个项目合并,打造出一个能够执行长达一小时复杂任务的强大AI AgentEesa FulfordCasey ChuEdward SunOpenAI ChatGPT Agent团队的核心成员,Eesa曾领导Deep Research团队,Casey曾领导Operator团队。

Deep ResearchOperator的融合

Sonya HuangEesaCaseyEdward,感谢你们今天的到来。

Eesa Fulford非常感谢你们的邀请。

Sonya Huang你们是ChatGPT AgentAgent模式背后的团队。它到底是什么?

Eesa Fulford是的,这是前Deep ResearchOperator团队合作的成果。我们在ChatGPT中创造了一个新的Agent,它能够执行那些需要人类花费很长时间才能完成的任务。我们给了这个Agent一台虚拟计算机的访问权限。通过这台虚拟计算机,它有几种不同的方式来访问互联网。它有一个文本浏览器,类似于Deep Research的工具,能够高效地在线访问信息,并用这个非常快速的文本浏览工具搜索内容。

然后,它还有一个虚拟浏览器,类似于Operator的工具,因此它能够完全访问图形用户界面(GUI),可以点击、在表单中输入内容、滚动和拖拽等等。所以,它比这两种工具中的任何一种都强大得多,因为一个更高效,另一个则更灵活。我们还给了它一个终端的访问权限。所以它能够运行代码、分析文件,并为你创建电子表格或幻灯片等产出物。通过终端,它还能够调用API,无论是公共API还是私有API。如果你登录了,它就可以访问你的GitHubGoogle DriveSharePoint以及许多其他服务。

最酷的一点是,所有工具都共享状态。这就像你使用电脑时,所有不同的应用程序都可以访问同一个文件系统。这个工具也是如此,所以模型可以非常灵活地完成任务。这为模型代表用户执行非常复杂的任务它的推理过程持续了28分钟。这正开启一种新的范式...提供了一种非常灵活的方式。

Sonya Huang能和我们聊聊它的起源故事吗?这个项目是怎么开始的?

Casey Chu我们团队之前是做Operator的。

Eesa Fulford我们团队之前是做Deep Research的。

Casey Chu今年一月,我们发布了第一个Agent——Operator。这个产品可以为你执行互联网任务,比如在网上购物、为你挑选商品等。两周后我们发布了Deep Research,这是另一个不同的模型或产品,能够广泛地浏览互联网并综合信息。它会为你生成一份带引用的长篇研究报告。当我们思考各自的路线图时,我们觉得,嘿,这简直是天作之合。Operator非常擅长与网页进行可视化交互,但在文本浏览(比如阅读长篇文章)方面稍逊一筹。而Deep Research非常擅长阅读长篇文章,但处理交互元素或高度可视化的内容时就比较困难。

Eesa Fulford因为它们的工具不同。Deep Research有一个文本浏览器,所以能高效地阅读信息、搜索和综合信息,但它不能像Operator那样滚动、点击或填写表单,因为Operator能完全访问GUI浏览器。同时,Deep Research最大的需求之一就是希望模型能够访问付费内容或需要订阅的内容,而Operator恰好能做到这一点。

Casey Chu我们团队的一位成员Eric在分析用户在Operator上尝试的提示类型时发现,很多都是Deep Research类型的任务,比如为我研究这次旅行,然后预订。所以这确实是一个非常自然的结合。

Lauren Reeder这在哪些方面实现了“1+1=3”的效果?

Edward SunDeep Research中,我们一直想办法让它能够访问一个真正的浏览器,加载那些它以前无法访问的真实内容。

Casey Chu有趣的是,这不仅仅是Deep ResearchOperator的结合,我们还加入了许多其他工具,基本上是我们能想到的一切。比如终端工具,它可以运行命令进行计算。图片生成工具也很有趣,如果它想通过制作图片来美化幻灯片,它也能做到。

Eesa Fulford它还能调用API

Sonya Huang还能制作PowerPoint

Eesa Fulford是的,它能做很多不同的事情。

Agent在真实世界中的应用案例

Sonya Huang能告诉我们,虽然还处于早期,人们都在如何使用它吗?

Eesa Fulford我认为最酷的一点是,我们有意让这个Agent保持了相当的开放性。它甚至就叫Agent,这个名字很模糊,部分原因是我们很期待看到人们最终会如何使用它。我们专门为它训练了一些任务,当然包括Deep Research类型的任务,即你需要一份关于某个主题的长篇报告;也包括Operator类型的任务,即你希望它为你做些事情,比如预订航班或为你购物;还有制作幻灯片的任务。我们还花了很多精力让它能够制作电子表格和进行数据分析。我认为模型还能做很多其他事情,所以我们很期待看到人们如何使用它。这有点像我们推出Deep Research时,看到很多人用它进行代码搜索,这让我们非常惊讶。我们希望能看到许多我们自己都未曾想到的新用例。

Lauren Reeder你觉得它的用例会更偏向消费者还是企业?或者说这是一个伪二分法?

Casey Chu我认为我们的目标用户是专业消费者”(prosumer),就是那些愿意等待30分钟以获取详细报告的人,这既可以用于个人消费场景,也可以用于工作。我认为它对两者都很有用。

Sonya Huang你们自己有用它做过什么喜欢的事情吗?

Edward Sun我个人用它来从我们的电子表格或Google Docs中提取数据,比如我们实验日志里的文档,然后制作一些幻灯片来展示或组织这些数据。这非常有用。

Casey Chu我一直在深入研究古代DNA,这是我的兴趣之一。过去五年里这方面有很多激动人心的进展。问题在于,所有东西都太新了,没有一个参考资料可以总结这些材料。但Agent可以出去搜集所有这些来源,并将其整合成一份我能阅读的报告或幻灯片。我认为它就是为这类主题而生的。

Eesa Fulford我喜欢将它用于消费场景,比如网上购物。尤其因为很多网站需要使用可视化浏览器,因为它可能有搜索过滤器需要处理,或者模型需要能够看到商品的样子。它在策划活动方面也相当有用。

Sonya Huang你最喜欢的购物查询是什么?

Eesa Fulford我用它来买衣服。

Lauren Reeder就在录制这期节目之前,你们还向我们展示了一个非常酷的用例,能分享一下吗?

Eesa Fulford当然。那其实是我们一位同事Tej分享的。她让Agent根据在网上找到的信息来估算OpenAI的估值,并创建一个带预测的财务模型。具体任务是:创建一个电子表格,一份总结分析,然后再制作一个展示结果的幻灯片。希望模型的预测是准确的,因为它对我们的预测相当雄心勃勃。

Casey Chu关于刚才那个任务,有一点我想指出,它的推理过程持续了28分钟。这正开启一种新的范式:你向Agent下达一个任务,然后你就可以走开,等它完成后带着一份报告回来。 随着Agent变得越来越有自主性,任务的时长也会越来越长。

Sonya Huang这是你们目前发布过的运行时间最长的任务了吗?

Casey Chu可以这么说。我刚刚就跑了一个长达一小时的任务。

Sonya Huang要让Agent能长时间运行而不失控,有什么特别的秘诀吗?

Edward Sun我们有一些工具,使模型能够突破其原始的硬性上下文长度限制。模型通过一步步记录它正在做的事情来执行任务,这在某种程度上延长了它在没有人类干预的情况下可以完成任务的时间范围。

Sonya Huang模型与人之间来回协作的流程也非常顺畅。我可以在它执行任务的过程中纠正它,对吗?

Eesa Fulford是的,这个模型非常灵活且善于协作,这一点对我们至关重要。我们建模的方式,是模仿你要求别人为你完成任务时的互动。中途,它可能会请求澄清,或者需要你授权登录。同样,你也可能想起遗漏的指令,想要中途打断它、给它新的指示,或者在它偏离方向时进行纠正。

这正是我们建模所依据的模式。用户和Agent都能够发起沟通,这一点非常重要。首先,Agent可以像Deep Research一样向你提问以澄清问题。然后,你可以打断模型,说:哦,能总结一下你目前为止做了什么吗?或者我忘了说,我其实只想要蓝色的运动鞋。此外,如果模型将要采取某种破坏性行动,或者需要你登录某个东西,它也会在行动前询问用户是否允许。

Casey Chu我们构建了一个计算机界面,你可以实时观察Agent正在做什么。这个界面在对话结束后仍然存在。任务完成后,你实际上可以回去问它后续问题,让它修改某些东西,或者执行另一个任务。你也可以接管那台计算机。你可以点击进去,然后你就可以访问它的环境,为它点击、为它登录、或者输入你的信用卡信息等。我喜欢把它想象成在旁边看着,必要时可以随时接管

用强化学习训练调用各类工具的Agent

Sonya Huang我们很想了解一下它的工作原理,在你们可以分享的范围内。

Edward Sun这个Agent的训练方法是强化学习。我们在同一个虚拟机里,为这个Agent模型提供了我们实现的所有工具,比如文本浏览器、GUI浏览器、终端和图片生成工具。然后,模型会尝试解决我们精心策划的、必须使用这些工具才能完成的困难任务。如果模型高效且正确地完成了任务,我们就会奖励它。经过这样的训练,模型能够学会在这些工具之间流畅切换。

Eesa Fulford这个工具与过去工具使用的实现方式相比,最酷的地方在于所有工具都共享状态。模型可以在更高效的文本浏览器中打开页面,但当它意识到需要可视化浏览器时,就可以无缝切换。或者它可以用浏览器下载文件,然后在终端里进行操作。它非常灵活,为模型与互联网、文件系统、代码等交互提供了一种更强大的方式。

Casey Chu一个有趣的点是,我们基本上是把所有工具都给了模型,然后把它锁在一个房间里让它自己实验。我们并没有真正告诉它什么时候该用什么工具。它自己就能弄明白,这几乎就像魔术一样。

Sonya Huang这个技术听起来和Deep Research非常相似。我们是否可以认为,这是OpenAI未来训练Agent的标准技术路线?

Eesa Fulford我认为我们可以用这个方法走得很远。这确实只是我们能共同创造的最基础的版本。我们有信心用这些方法将其推向更高的高度。例如,制作幻灯片是一个新能力,它已经非常出色,但这方面我们还有很大的提升空间。

Edward Sun是的,到目前为止感觉很神奇。同样的RL算法,对o1的推理、对Deep Research的工具调用,以及现在对更高级的Compute Use和浏览器使用的Agent都有效。

Sonya Huang种策略和模型在哪些方面会遇到瓶颈?

Eesa Fulford这个模型一个有趣的地方在于,因为它能够采取具有外部副作用的行动,所以存在更多的风险。Deep Research是只读的,所以风险有限。但对于这个新Agent,理论上,模型可以在成功完成任务的同时,沿途采取大量有害的行动。比如你让它帮你买东西,它为了确保你满意,决定买100个不同的选项。因此,安全、安全训练和缓解措施是我们开发这个模型过程中的核心部分之一。

Casey Chu同样地,正是这种与真实世界的接触让事情变得困难。我们不得不在成千上万的虚拟机上训练它,而事情总会出问题。一旦你访问一个真实的网站,网站可能会宕机,或者你会遇到各种容量限制等问题。这真的只是个开始,这是一个主要的限制。

Lauren Reeder从安全角度,你们如何构建正确的护栏?比如,如何确保模型不会登录我的银行账户,把钱转给尼日利亚王子?

Casey Chu这是一个非常好的问题。这确实是一个正在出现的风险。我们有一长串的缓解措施,团队非常努力地将一系列技术叠加在一起,以尽可能地保证模型的安全。我举一个例子,我们有一个监视器”(monitor),它会像在模型背后监视一样,看看是否有任何看起来奇怪的事情发生,比如它是否在访问一个奇怪的网站。这就像你电脑上的杀毒软件。如果看起来有任何可疑之处,它就会停止轨迹。当然,我们无法捕捉到所有情况,这是我们将继续迭代的一个主要领域。

Eesa Fulford关于安全训练,最酷的一点是这是一个真正的跨组织合作,涉及安全团队、治理团队、法律团队、研究团队、工程团队等等。我们进行了大量的外部和内部红队测试。但是,正如Casey提到的,当我们发布模型时,肯定会发现新的问题,所以我们需要确保我们有强大的方法来检测并缓解这些问题。

Sonya Huang对于某些模型,存在被用于制造生物危害等风险。你们如何管理这些问题?

Casey Chu是的,生物安全一直是我们高度关注的问题。我们团队关注的首要问题之一就是生物风险,比如制造生物武器这类事情。我们进行了数周的红队测试,以确保这个模型不会被用于这些有害的目的。我们还采取了许多其他的缓解措施。总的来说,我们非常清楚这一点,并努力保持极度谨慎。

团队协作与开发模式

Lauren Reeder能介绍一下组建这个项目的团队吗?

Eesa Fulford正如Casey早些时候提到的,我们原来有Deep Research的研究团队和应用团队,以及Operator的研究团队和应用团队,现在我们实际上把所有人都合并了。研究团队和应用团队都紧密合作。

Casey Chu气氛一直很棒。

Eesa Fulford太有趣了。

Sonya Huang你们有多少人?

Eesa FulfordDeep Research团队,大部分时间里只有三四个人。

Casey Chu在我们这边,我想大概有六到八个人。

Eesa Fulford这是研究团队的规模。然后我们有一个非常出色的应用团队,包括工程、产品、设计。我认为这次合作之所以如此特别,一个关键原因就是研究团队和应用团队从一开始就紧密合作,甚至在定义产品应该能做什么的阶段就是如此。我们从希望解决的用例出发,反向进行模型训练和产品构建。

Sonya Huang这比我预期的团队规模要小得多。小团队能做出惊人的事情。

Edward Sun实际上,研究团队和应用团队之间的界限并不是那么分明。因为在模型训练期间,很多应用工程师都在帮助我们训练模型。而在我们训练完模型后,一些研究团队的成员也在从事将模型部署给真实用户的工作。

将一个单一Agent作为基础模型更有意义

Lauren Reeder训练这个Agent最困难的部分是什么?

Edward Sun我认为我们面临的最大挑战之一是如何使训练保持稳定。训练Agent模型时,它有一些新工具,比如计算机和终端都捆绑在同一个虚拟机里。所以训练起来其实相当困难,因为我们实际上是同时设置了成百上千个虚拟机,然后它们都要访问互联网。这是最大的挑战之一。

Sonya Huang接下来要做什么?更多的来源,更多的工具,还是一个更好的模型?

Casey Chu我认为我们的Agent框架有一个好处,那就是你可以让它做任何你想做的事。它可能做得不够好。

Lauren Reeder可以叫它,去网上给我赚钱吗?

Casey Chu你可以那么告诉它。

Lauren Reeder我们等下要不要试试?

Casey Chu可以试试。不过,我认为这本质上是一个提升准确性和性能的问题,关键在于要能胜任任何人在电脑上可能执行的各类任务。

Eesa Fulford没错。那可是很多任务。

Edward Sun通过迭代部署,我们非常兴奋地看到用户将在我们的Agent中发现什么新的能力,就像在Deep Research中发现的编码能力或在Operator中发现的搜索能力一样。

Eesa Fulford我经常用Agent模式来编码,因为它不会总是试图重写我的整个代码库。它实际上只是做一些小的编辑,而且它能很好地读懂不同函数的原始文档。所以我感觉它在函数调用方面的幻觉更少。

Sonya Huang真有意思。在这种情况下,你如何选择使用Codex还是Agent

Edward Sun对于Agent,我用它的方式更像交互式体验。Codex更像你有一个设计好的问题,想让一个同事来解决,然后它会为你创建一个PR。但对于Agent,它更像是直接给你一个函数或一个建议。

Sonya Huang感觉就像,到目前为止的Agent路线图,你们已经整合了各种所需的功能模块。通过将它们全部结合起来,这确实是第一个在计算机上完全具身Agent。我认为这非常激动人心。

Eesa Fulford,我认为这个模型实际上非常擅长多轮对话,并且很适合持续地在一个任务上进行协作。我们对这个模型的多轮对话能力感到非常满意。然后我还认为,Agent的个性化和记忆能力也非常重要。而且目前,每一个Agent任务都是由用户发动的。但在未来,它应该能够在你甚至没有提出要求的情况下,就主动为你做事。

Casey Chu我也对围绕AgentUIUX感到非常兴奋。现在我们是在ChatGPT的世界里工作,但你可以想象有很多与Agent交互的不同模式。我非常期待探索与Agent交互的不同方式。

Sonya Huang你认为这会一直是一个单一的、无所不知的超级Agent,还是会分化出金融分析师、派对策划师等子Agent

Eesa Fulford我认为在极限情况下,如果你只需要问一件事,它就能弄清楚需要做什么来完成,那似乎是最简单的。就像你有一个非常出色的幕僚长,他知道如何正确地分配任务,并且基本上能做你需要做的任何事。

Casey Chu我同意这个看法。我认为模型应该可以自由地同时使用所有工具。它不需要成为一个金融分析师才能拥有金融分析师工具集

Edward Sun是的,在训练模型时,Deep Research、工具操作、幻灯片生成……所有这些技能之间存在大量的正向迁移。所以,将一个单一的Agent作为基础模型更有意义。

Sonya Huang我明白了。即使人们做着不同类型的工作,我们基本上都在做同样的事。我很想了解一下从强化学习角度的一些经验。这似乎是你们在Agent方面真正行之有效的方法。要达到让Agent在如此广泛的任务上都表现出色,数据量是不是非常大?或者说,从RL的角度,你们学到了什么?

Eesa Fulford关于你的问题,强化学习的数据效率非常高。这意味着我们能够策划一个规模小得多但质量非常高的数据集。这个数据规模与预训练数据的规模相比简直是微不足道。

Casey Chu我想说,为了让Operator的部分运作良好,在进行RL之前,模型必须足够好,能够基本完成任务。我们团队在过去的两到三年里花了很多时间,才让模型达到那个水平。

Lauren Reeder实际上,你能多说一点吗?因为我记得在OpenAI的早期,这始终是“World of Bits”项目的一部分,你们试图用RL来控制鼠标路径,但那是个几乎没有边界的问题。现在是什么改变了,让这个问题变得可以解决了?

Casey Chu是的,你提到“World of Bits”很棒。这个项目确实有很长的历史渊源,可以追溯到2017年的“World of Bits”项目。那现在有什么变化?我认为本质上是训练规模的变化。在计算资源和训练数据量方面,肯定有比如十万倍的增长。我真的认为就是规模,规模终于赶上了我们的雄心。

Lauren ReederAgent模式中,有没有什么特别的功能或能力是你们特别兴奋的?

Edward Sun这个模型实际上非常擅长做一些真正的研究,比如数据科学。我们做了一些评估,比如DataScienceBench,它实际上超越了人类基准。所以在某些方面,它在一些研究任务上已经是超人的。

Casey Chu另一件让我兴奋的事情是,我们已经大幅提升了Operator的点击能力,现在它准确多了。把基础的事情做对,正是我真正感到兴奋的地方,比如它能可靠地填写表单。不过,日期选择仍然需要一些努力。

Eesa Fulford但出于某种原因,日期选择就是最难的任务。

Lauren Reeder对于人类来说也很难。比如在日历下拉菜单中选择日期。

Sonya Huang现在你们似乎已经为一些非常有趣的东西奠定了整体框架和结构。接下来是什么?你们要走向何方?

Eesa Fulford我认为我们真正兴奋的是,我们给模型的这个工具非常通用。它基本上涵盖了你在电脑上能做的大部分事情。所以现在我们感觉,问题就在于我们如何让模型也擅长所有这些任务,并找到一种方法,用这个非常通用的工具在尽可能多样化的任务上进行训练。我们对此感到非常兴奋。我们也很兴奋能推动与Agent交互的不同形式。我认为在用户和这些虚拟助手或Agent之间,将会出现许多新的交互范式,所以前方有很多激动人心的时刻。

Sonya Huang我迫不及待想看到了。谢谢你们。

原视频:OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yethttps://www.youtube.com/watch?v=YNWWu0aZ5pY&t=350s

编译:Yuchen


AI 前线

Docker:运行时保护 AI 智能体

2025-12-23 15:10:40

AI 前线

Nano Banana Pro,也称 gemini-3-pro-image-preview,是目前最好的图像生成模型

2025-12-23 15:11:01

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索