内容概要
OpenAI 的 Ben Goodger 和 Darin Fisher 深入探讨了 ChatGPT Atlas 的制作过程。他们过去的杰出工作塑造了一些最受欢迎的现代浏览器。在这期节目中,他们探讨了人工智能 (AI) 如何改变浏览器的定义,从可以对话的标签页到能接管繁琐任务的“代理”(Agent)。了解他们在此过程中做出的决策以及未来的发展方向。
目录
-
简介
-
什么是 Atlas?
-
浏览器的现状与网络 AI
-
深入底层
-
用 AI 构建
-
Atlas 中的搜索
-
最喜欢的功能
-
Side Chat 实战
-
代理模式的实际成效
-
为什么选择 Chromium?
-
五年愿景
-
实用技巧与结束语
正文
简介
Andrew Maine: 大家好,我是 Andrew Maine,欢迎收听 OpenAI 播客。OpenAI 最近发布了很多激动人心的产品,包括 GPT 5.1、Sora,以及我最喜欢的新应用之一 —— ChatGPT Atlas。
今天,我们将与它背后的团队——Ben Goodger 和 Darin Fisher——进行交流,探讨 OpenAI 为何决定打造一款浏览器,代理 (agent) 功能的未来意味着什么,以及一切的下一步发展方向。
Darin Fisher: 时机已经成熟,因为这实际上是人们应该开启他们旅程的方式。我们正迈向一个你只需告诉计算机你想要什么的世界。
Ben Goodger: 所以我认为,代理 (agent) 拥有自己工作空间的想法非常强大。我一直认为这是一项长期投资。
什么是 Atlas?
Andrew Maine: 让我们从“什么是 Atlas?”以及“为什么是它?”开始吧。
Ben Goodger: Atlas 是一款新型浏览器,它面向的是一个人们使用自然语言与新技术互动的网络时代。
在这款浏览器里,你只需告诉它你想要什么,无论是想买下一套服装,还是帮你解决一个难题,它都能帮你利用网络完成各种任务。
这个想法的核心是,如果我们将 ChatGPT 作为浏览器的核心,而不仅仅是一个附加组件,它就能真正帮你理解网页上的内容。
它能帮你在网络上执行操作,它能从你的浏览中学习,个性化你的体验,并帮助你完成那些不仅在几分钟内完成,甚至可能需要几天、几周或几个月才能完成的任务,或者只是在总体上帮你成为一个更有好奇心、更高效的人。
Darin Fisher: 是的,它还能帮你回到一个你可能有一段时间没空处理的任务上,因为它会为你记住你正在做什么,并帮你直接回到原来的地方。
Ben Goodger: 为什么是现在?
我认为,过去几年里,这些 AI 模型的技术进步令人惊叹。
感觉我们正处在一个最佳时机 (sweet spot),不仅是驱动 ChatGPT 的大型语言模型 (LLM) 的能力,还包括计算机使用的新领域以及其他一些周边技术,都已经达到了一个我们可以为人们构建真正引人注目的体验的程度。所以我们想试一试。
Darin Fisher: 就像 Ben 说的,模型已经变得好很多,而且还在不断进步,你可以看到创新的斜率和改进的速度。如果你回顾一下今年年初 Operator 首次亮相时,它只是暗示了一些潜力,现在快进到 Atlas 的代理 (agent) 功能,它变得更快、更强。只要看看这个斜率,你就可以开始预测明年、五年后会是什么样子。为了打下这个基础,这就是我们感到兴奋的地方,感觉时机正合适。
对我个人而言,我感觉我已经完成了那个转变,看到了 ChatGPT 在我生活中多么有意义,我多么频繁地使用它,并且感觉到,把聊天 (chat) 放在浏览器的核心——不仅仅是你必须切换过去的另一个标签页,而是作为核心和流程的一部分——的时机已经成熟,因为这实际上是人们应该开启他们旅程的方式。
因此,我们想让这一切变得自然、简单。我很高兴我们能推出 Atlas,也很高兴能把它带到更多平台。
浏览器的现状与网络 AI
Andrew Maine: 你们二位在浏览器领域有着相当丰富的历史,从 Netscape,到 Firefox 和 Chrome。我想了解一下,你们如何看待我们目前所处的浏览器发展阶段?
浏览器已经有 30 多年的历史了,它们似乎一直在进行增量更新,然后突然之间,我们开始为它添加 AI 等等。你们如何看待当前的浏览器格局?
Ben Goodger: 我认为我们已经进入了一个网络上非常激动人心的时期,我们加入了这种非常人性化的交互形式,即大型语言模型,你可以直接对软件说话,让它为你做正确的事情。
所以我认为这将彻底改变人们在网上完成任务的方式。我们已经从一个必须记住网址、必须去搜索它们的世界,过渡到现在你只需说出你想完成的任务,就能看到它被完成。
Andrew Maine: 我注意到很多人在想,我们是否还会继续拥有浏览器?这曾经是个问题。现在看来,浏览器似乎还会存在一段时间。你们都这么认为吗?
Darin Fisher: 它是人们经常使用的一个工具。你在网络上、使用浏览器完成很多事情。很难想象它不会成为人们使用电脑的重要组成部分。
我认为,我,我们都经历过互联网的许多阶段和浏览器发展的许多阶段。曾几何时,移动互联网来了,人们会说,为什么还有人会用笔记本电脑?为什么还有人用台式机?
然而,人们仍然在继续使用台式电脑。他们使用台式机处理的事情可能截然不同,现在他们也可以用手机处理某些事情。但是,网络浏览器仍然是你电脑上如此重要的工具,用于完成工作、进行研究任务、查找信息以及做那些实质性的工作。这些工作都在浏览器中、在网络上发生。
我没看到这种情况有任何改变,反而我认为它在增长,因为它就像是通往全世界信息的管道。它是一个如此简单的平台,让人们可以带来体验并将其提供给每个人。浏览器让这一切变得如此容易。
Ben Goodger: 这其中有种有趣的特质。在过去 25 到 30 年网络技术的所有进步中,浏览器具有一种非常持久的特性。即使你看看最近这一波以 ChatGPT 发布为代表的生成式 AI 浪潮,它也是在网络上首发的。我认为这有力地反映了这个平台的能力。
这个平台本身就很了不起。我无需赘述它在哪些方面了不起,但事实是,它是一个天生开放的平台。内容被发布到一个开放的平台、一个开放的互联网上,任何人都可以建立一个浏览器来消费这些内容。谈到网络,真的没有守门人,这是一个非常了不起的方面。
因此,人们可以自由地发布信息,也可以自由地去寻找这些信息。这使得它能够以不同的方式绽放、成长和进化。然后,很自然地,你可能会想拿一个像 LLM 这样的东西指向它,因为它现在可以代表你尝试理解网络并帮助你导航。
所以,它能做所有这些事情,这意味着当你试图利用所有这些信息时,作为用户,一切都变得容易得多。它就在那里,它可以为你找到信息,为你理解或向你解释。
Darin Fisher: 我只想说,我认为看到网络的演变真的很有趣。我们刚入行时,正处于互联网泡沫 (dot com boom) 破灭的时代。那时候对浏览器的需求是不同的,人们在互联网上做的事情也不同。他们并没有完全在探索。
然后随着时间的推移,当我们开发浏览器时,人们试图在浏览器中做的事情变得更多了。如果你回到 2000 年代初,你会看到像 Google Maps 刚推出时那样更高级的网络应用的演变。我记得当时我惊叹于你可以在地图上如此轻松地滚动和平移。
接着,各种人们习以为常的网络应用相继出现,比如 YouTube,或者,我可能会列出很多 Google 的应用,因为我曾在 Google 工作,比如 Gmail、Google Docs 等等。我竟然可以在浏览器里完成所有这些事情,这真是太神奇了。
这就像浏览器成为了你笔记本电脑上生活的操作系统。
Ben Goodger: 是的,这也推动了浏览器需要具备更多能力,对吧?
Darin Fisher: 因此,在我们开发 Chrome 的那个时代,人们已经在推动浏览器功能的边界,但他们有充分的理由这样做,因为网络这个平台如此容易地将新体验带到互联网上,这意味着人们有很大的动力去做这件事。开发者们非常有创意地在推动浏览器功能的边界。
快进到今天,这一切都已成为基础。现在,想想世界变得多么复杂。我认为人们很有可能会对这种复杂性感到不堪重负。
Ben Goodger: 实际上,我认为,即便是几年前,我记得我还是个孩子的时候,我和学校的朋友们会像那时一样在软盘上交换共享软件 (shareware)。我的大脑就是记不住某些类型的信息。
所以像运行解压工具的命令行之类的东西,对我来说完全是陌生的。从这个意义上说,网络是一种非常清新的体验。我可以直接点击东西、去探索,而不必了解机器的底层原理。
但是,我发现未来技术的发展方向是,当我们的电脑上有了这些 AI 助手时,我们会发现计算能力对于更多非专业人士来说变得更加触手可及。
不仅仅是在操作系统或浏览器如何工作的层面上,甚至可能是在单个网站如何工作的层面上。你可以更自然地表达你的意图、你的目标,然后系统可以为你找出最佳的实现方式。
Andrew Maine: 是的,似乎在网络初期,关于网络可能是什么样子有很多想法,其中一部分是,很多标准是事后才决定的,或者我们必须先这样再那样。还有一些本该有的好东西,比如“语义网”(semantic web),如果我们能确保所有东西都被正确标注。
但在现实世界中,在企业界,这通常很难做到。现在,你是否想过我们会看到这样一个世界:LLM 能够理解这一切,并使之成为可能?
Darin Fisher: 我认为看到这一点很神奇,这就是现代 AI 模型的魔力所在,它们确实能够以我们与系统互动的方式来与事物互动。当然,这个世界是为有眼睛、有嘴巴的人设计的,在网络上是为有鼠标点击或有手指轻点的人设计的。
所以你谈到语义网,当然,如果人们发布的网站能被机器更好地理解,那就太好了,但他们的动机是去用户所在的地方。尽管我们努力推动网站对屏幕阅读器等更具可访问性 (accessible),但现实当然是,这并不是开发者首先花费精力的地方,对吧?
确保所有内容都具有极高的可访问性通常是事后才想到的。
因此,这些 AI 模型的妙处在于,它们能在用户所在的地方与技术相遇。技术是为人类消费而设计的。所以你看它与语言互动和理解语言的方式,它能以我们与语言互动的方式来互动。
自动驾驶汽车,它们能以我们与道路和交通系统互动的方式来互动。
我认为这就是这些 AI 模型的妙处所在,它们可以为这个为人类设计的世界而发展。这一点自然也延伸到了浏览器上。
Ben Goodger: 我认为,这并不一定是我们 100% 准确地预测了这一切将如何发展,但在最初的互联网中,有一些非常强大的想法。比如,当时的想法是,它是结构化数据,由机器读取和解释,然后以某种方式呈现给用户。
在最初的网络中,有“用户代理”(user agent) 的概念,也就是浏览器。它会获取那些机器可读的内容,然后应用一些个性化的显示偏好。也许你喜欢字体大一点,更容易阅读,也许你喜欢某种特定的样式或粗细等等。
这在最初的网络中就是这样的想法。我认为这个想法在今天这个时代仍然非常好用。你可以把我们今天所处的阶段看作是那段旅程的自然终点或延续。
Darin Fisher: 用户代理 (User Agent) 的进化,对吧?
所以,在过去,即使在 Netscape 浏览器中,你也可以编写所谓的自定义样式表或用户代理样式表,你可以覆盖任何网站的颜色。那些可能更资深的用户会知道如何做到这一点。
后来,浏览器扩展让这种功能变得更普及。人们可以编写一个扩展,更容易地与他人分享。
但现在,授权 LLM 代表你去做事,正如 Ben 所说,真正地强化 (supercharge) 那个用户代理,使其能够代表你做更多的事情,这是非常有意义的。
Andrew Maine: 是的,在这一切刚开始的时候,有很多有趣的想法。你看看那些工具的名字,比如 Gopher、Cheryl Watson 和 Sherlock 等等,它们是多么地具有前瞻性。正如你们提到的,这些工具不仅仅是文档查看器。
我认为我们有点把浏览器视为理所当然了,认为它只是“给我显示网页”而已。我可以理解,对于你们这些职业生涯大部分时间都在浏览器领域工作、试图理解它的人来说,这是多么有帮助。这其中似乎隐藏着超乎寻常的复杂性。
深入底层
Andrew Maine: 你们能举个例子吗?比如在试图让某个功能工作时,你们必须处理哪些复杂问题?
Darin Fisher: 天啊,浏览器的复杂程度可能超乎想象。我甚至不知道从哪里说起。
我惊讶于构建一个浏览器需要如此多的工作和技术。它基本上就像一个应用平台或一个运行在你桌面上的迷你操作系统。
感觉计算的每一个学科,你都可以在浏览器的某个方面深入挖掘。我刚在午餐时和我们团队的一位工程师解释我们的 Owl (我们嵌入的 Chromium,它在进程外运行) 是如何工作的。
我解释了它的渲染模型,这引出了一段关于 Chrome 刚构建时是如何工作的,以及后来 GPU 加速渲染是如何演变的对话。现在快进到今天这一切的工作方式,以及我们试图用 Owl 做什么,以及那里的复杂深度。我真的可以一直说下去。
Andrew Maine: 这确实很有趣。我认为人们可能忽略了像“浏览器大战”这样的事件,它催生了像在服务器上运行 Node 来实际做事这样的技术,这在当时是没人想到的,但这都是为了让这些东西更高效、更快。我再次感叹,任何东西能正常工作都是个奇迹。
看看你们在 ChatGPT Atlas 上发布的一些技术资料,我了解到它不仅仅是一个插件,也不仅仅是增加了一个聊天栏。你们能多解释一下它的架构吗?
Ben Goodger: 从设计的角度来看,我想说,我们希望将整个体验想象成以 ChatGPT 为核心。
不仅仅是,你知道,我们也有一个 ChatGPT 扩展,你可以安装在 Chrome 里。但它的能力是有限的。
因此,当我们从设计的角度来处理这个问题时,我们希望能够真正有能力审视整个浏览器的界面。我认为,我们今天所做的可能只占我们想做的 2% 到 5%。
但我们认为,能够以这种方式拥有整个浏览器体验,使我们有机会将 ChatGPT 的魔力编织到整个过程中。
这包括,例如,在任何文本字段上,你都可以调用 ChatGPT 帮助你写作。当它帮你写作时,那是你个性化的 ChatGPT,它可以像你一样签署你的电子邮件,因为它从你使用 ChatGPT 的其他过程中了解你。
因此,为了能够构建它,以实现这些深度集成的用例,拥有一个“浏览器”而不仅仅是一个现有应用的“附加组件”就显得非常重要。
这也涉及到一些基础性的东西。当 ChatGPT 成为这个东西的核心,并且你启用了像“记忆”这样的功能时,这意味着你可以问这个东西,“嘿,我之前看的那个东西是什么来着?”它会知道并帮助你。
谁没有过这种经历,“哦,是的,我记得我看了某个视频或某个东西,那是什么来着?我怎么才能找回去?我想分享给别人。”
传统上,你可能会翻看你的浏览器历史或 YouTube 历史,在里面滚动查找,或者你会想,“我看到的那个推文是什么来着?”或者,我周末和我儿子在看一个食谱,那是我们找到的第三个水牛城鸡翅食谱,我想做那个。我怎么才能再找到它?
现在,你能够轻松地回忆起它,因为它能够毫不费力地做到这一点。这只是它“在那里”的一个附带好处。
Darin Fisher: 也许我想说,这样做,尤其是以我们现在的方式去做,最大的优势可能是我们如何考虑整合这种“代理”(agent) 能力。
这才是真正需要我们拥有自己的浏览器概念的地方,包括“拥有一个标签页集合”意味着什么。如果你把你常规的浏览器窗口看作是一个标签页的集合,那么你也可以想象你的“代理”有一个标签页的集合。
也许你要求代理去为你做某件事,你可能同时有 5 个实例,每个都在处理不同的问题。而每一个实例都有它自己的标签页集合。
当然,它们不会显示在你的顶部标签栏里,因为不是你打开的。但它确实拥有这些标签页,并且在处理它们,从中获取信息,处理信息,代表你采取行动,点击等等。
这就是当你去设计这样一个端到端的系统时,你所能拥有的那种功能。你创造了所有这些抽象概念。
在最初的版本中你就有这个想法。我记得当我加入 Ben 一起做这个项目时,他已经有了这个想法,就是我们能够把用户的标签页和代理正在为你工作的标签页分开。
这一点今天在产品中有所体现。当你启动一个代理任务时,它会去执行你要求的任务。它可能需要打开一些额外的标签页。
这些标签页不会突然出现在你的标签栏里,让你感到困惑,“这些标签页是哪里来的?”
它只是在后台积累了一些工作。当它完成后,它会以一种表格的形式呈现给你。你可以点击进去,看看它到底做了什么,或者你只对结果满意,根本不需要看所有中间步骤。
所以我认为,代理 (agent) 拥有自己工作空间的想法非常强大。
Andrew Maine: 我想说,对于许多使用这个产品的人来说,表面上看起来很容易理解。我有一个浏览器,我有 ChatGPT,但我们还有代理模式 (agent mode)。
什么是代理任务,什么不是?什么是 ChatGPT 任务?你能解释一下吗?
Ben Goodger: 是的,代理模式基本上就是你邀请 ChatGPT 代表你在网络上采取行动。
也许你正在浏览一个网站,想在那个网站上做点什么,但你不太确定该怎么做。你可以做的就是直接问 ChatGPT。
比如说,你正在看一个电子表格,你想合成一个饼图,但你不知道怎么做。你就可以说,“嘿,用这些数据做一个饼图。”
它就会去弄清楚如何使用那个软件。
你可以想象一下,你使用的某些软件有时候可能非常复杂。所以,能够用自然语言,用你自己的话,说出你想要看到什么,然后你就可以坐下来,看着它接管,开始移动鼠标,为你做那些事情,这真是太神奇了。
而且你还能看到它是怎么做的。所以实际上你可以学会如何制作那个饼图,因为它会展示给你看,这非常酷。
Andrew Maine: 我发现它非常有用。比如我喜欢研究记忆方法之类的,我需要为一副扑克牌做一个系统,我不想自己粘贴一大堆扑克牌的表情符号 (emoji),我就想,“你能帮我做这个吗?”
这就像魔法一样,简直是巫术。
Ben Goodger: 我在办公室里看到人们做的一件有趣的事情是,他们会写一份文档,然后让它对文档进行一次审查,并添加一些评论。
所以它会真的进入你的文档,并且可以使用你所用的任何文档编辑系统的集成评论工具。它会像一个协作者一样添加评论。
Darin Fisher: 是的,这真的太神奇了。当然,作为软件工程师,我们体验了模型批评我们的代码。在过去的一年里,看到它在这方面取得了多大的进步真是太神奇了。
一开始,它并不总能发现有用的东西。但如今,我感觉它分享的重要见解能帮我避免发布 bug。
我可以想象这就像审查我写的任何文档一样,我只需让它去给我一些风格上的反馈,或者语法建议,或者语气上的建议。
我只是觉得,在互联网上你使用的任何工具,你都可以调用这个代理,让它以我或其他人会用的方式与它互动,看看它会做什么。也许你能从中学到东西,或者别的什么。
用 AI 构建
Andrew Maine: 在我与 OpenAI 内部团队的对话中,一个经常被提及的话题是,他们在使用这些工具的程度。他们正在使用 GPT-5、GPT-5 Codex 来完成工作。这对你们有什么影响?你们认为这会加速产品的迭代周期吗?
Ben Goodger: 绝对的。关于这一点有几个小故事。
公司里 Codex (代码工具) 的顶级用户之一就在我们的团队里,由于使用了这个工具,他们在 PR (Pull Request) 输出方面的原始生产力简直是爆表。
看到经验丰富的工程师使用这些工具能做些什么,真的非常令人兴奋,因为他们既可以用它来探索一个领域,帮你决定某件事是否值得做,然后你运用你的判断力,告诉它你希望它做什么,它就会去完成。
而对于像我这样,可能花在编码上的时间比以前少的人来说,我也可以让它去验证一些东西。
所以我们团队的每个人都能做出贡献,我们的产品经理在提交 PR,我们的设计师也在提交 PR,这都归功于这些工具。所以我是一个真正的信徒。
Darin Fisher: 是的,为了 GA (General Availability,泛指正式版发布),我花了一周的时间进行重构,试图解锁我们试图推出的某个功能。然后我还有一个任务要做,这一次我让 Codex 去做,整个项目在一个小时内就完成了。
这和上一个任务的规模差不多,我告诉它,“嘿,就像我做那个一样,把这个也做了。”我给它指明了方向,然后让它去做这个非常相似的任务,它几乎是一次就搞定了。
Andrew Maine: 能够编写多种语言、将代码从一种语言移植到另一种语言的强大代码工具,这是它的承诺之一。我们看到了 Sora 的例子,他们说,“嘿,Android 版。”
人们会说,“哦,太好了,什么时候能用上?”
“哦,不,已经发布了。”
Darin Fisher: 不,不,我的意思是,实际上 ChatGPT 在做跨(编程)语言翻译方面已经很出色了。
我们现在正把这个产品带到 Windows 上,我们实际上将使用 Swift,因为我们团队里有很多 Swift 专家,我们很高兴能有一个共享的通用代码库,在 Windows 上使用 Swift?是的,Windows 上的 Swift。
所以,根据我过去的经验,我几年前就惊叹于 ChatGPT 的能力,它能为我生成 Swift 代码,而这些代码在互联网上是不存在的。它能把我可能是用 .NET 编写的代码翻译成 Swift。
我只是惊叹于它的能力。或者,它能生成一大堆晦涩的 WinRT 代码,这通常是需要大量 GUID 和各种非常繁琐细节的 C++ 代码。但它就是能吐出这些代码,为我们节省了大量的时间。
Andrew Maine: 是的,我让 Codex CLI (命令行界面) 启动了一个 Swift 应用程序,全程无需进入 Xcode 粘贴任何东西,而且它开箱即用。这真的给我留下了深刻印象。
Darin Fisher: 所以,这就像是这些模型的优势之一。如果你能问对问题,给出正确的提示,并且它走在了正确的构建路径上,它就能用任何语言来完成。这真的不成问题。
Andrew Maine: 我一直在使用这个,并且切换到代理模式来做事。我知道有时候我可以离开一个标签页,去做别的事情。但有时候它会说,“嘿,如果你离开这个标签页,我就会暂停。”这是怎么回事?
Ben Goodger: 是的,这是因为有时候你要求代理做的事情非常敏感。比如,它正在查看你的电子邮件,我们希望你保持“眼观前方”。
我有一辆车有自动驾驶功能,它希望我注意路况。它在帮我开车,但不会让我在开车时看手机或打个盹什么的。它有一个完整的摄像头在监视我的眼睛,确保我在集中注意力。
所以你可以把代理模式中的这种“敏感模式”看作是类似的东西。它希望你在它完成任务时能一直关注着这个标签页,这样你就能感觉到你对它有很好的控制。
事实上,如果你看标签页的底部,你会看到一个小条,上面有一个大大的红色停止按钮。如果你去过机械车间,你就会知道那里的机器上都有这种大红色按钮。如果它突然开始做一些你不想让它做的事情,你只需猛击那个按钮,它就会停下来。
所以这个想法就是,你只要留意它,看着它运行,如果你想自己接管,你随时可以。
Darin Fisher: 是的,我们花了很多心思来确保这些功能让你感觉一切尽在掌控,并消除你使用它们时可能出现的不确定性。
例如,除了 Ben 提到的,还有一种“登出”状态下使用代理的方法。
如果你想在未经身份验证的会话中启动它,意味着它没有访问你电子邮件所需的 Cookie,你也可以这样做。我认为这是个很好的方式,可以让你尝试一些事情,了解这个东西到底是怎么工作的。
然后你可能会发现,为了让代理执行下一步操作,如果它经过身份验证会更有帮助。所以接下来你可能会尝试一个需要使用 Cookie 的任务。
你可能不记得了,但你第一次运行代理时,它会显示一个屏幕,解释这一切是如何工作的。所以如果你读了那些内容,你就会看到你有哪些选择,并学会如何使用它们。
Andrew Maine: 是的,我有大概 50 万封未读邮件。我准备好“全自动”模式了。它再怎么做也不会比我现在的情况更糟。
Ben Goodger: 你可能会发现它直接就“全选,归档”了。
Andrew Maine: 是啊,那也不是最坏的,就当是“宣告破产”了。
我至少可以有个怪罪的对象。但这对我来说超级有用,因为有时候我试图找到一封邮件,但关键词不管用,或者搜索结果太多。我只需进去说,“找到那个关于某某的邮件”,这已经帮了我很多次了。
Ben Goodger: 我们对代理做的另一件事是,因为有时候你确实需要盯着它,所以我们把它做得在视觉上非常吸引人,我为团队的成果感到非常自豪。
当它工作时,它周围会出现所有那些小小的闪光和“仙尘”(pixie dust),非常酷。所以,是的,希望能有更多人来尝试它。
Andrew Maine: 是的,看着它工作很有趣。无论是 ChatGPT 还是代理模式,我都觉得我可以看一整天它们解决问题的直播,就像是看《制造的原理》,但看的是电脑在做事。
看到这一切的发展方向令人兴奋。我也在想,当有很多不同的 AI 驱动的浏览器出现时,会是什么样子?而且,我们是否必须考虑,如果我的大部分标签页都是由我的代理打开的,而不是我,而有人正试图吸引我的注意力,那么这个生态系统会是什么样子?
Ben Goodger: 代理目前的工作方式是,它只在响应你的请求时才会运行。
因此,如果代理在做什么,那在某种程度上是因为你要求它这么做的。
它打开的页面实际上有一些限制。比如,你可能习惯了在网上浏览时,某个页面会弹出一个窗口,要求你授予“通知”权限,这样它就可以向你推送更新。
Andrew Maine: 我从来没点过。没有人会有意去点那个。
Ben Goodger: 是的。代理标签页是做不到那一点的。它们被禁止那样做。
所以,系统的设计中有很多这样的考虑,以避免你意外地陷入那种状态。当然,作为用户,当你浏览一个网站,它请求通知权限时,如果你想接收那个网站的更新,比如你的日历,你可以自由地选择“是,我想要这个”。但代理永远不会代表你这样做。
Andrew Maine: 这是一个有趣的世界。我们想想,早期网络的美好之处在于“意外的发现”(serendipity),“哦,我发现了这个别的东西,我发现了这些别的链接。”
但我认为,后来这种机制在某种程度上被“武器化”了,用来对付用户。你试图做一件事,但却很难做到。
Darin Fisher: 是的,这真的很有趣。我不知道你是不是想说这个,但很多网站就是想让你留在他们的网站上。也许他们会投放广告,那会把你带走,但除此之外,他们会尽量让你留在那个“巷子”里。
而 Side Chat (侧边聊天) 或模型存在的好处之一,甚至是代理的好处之一,就是你可以问它关于那个网站的问题,而答案可能在另一个网站上。
所以它为你扩展了网络,帮助你不仅是陷在那个“兔子洞”里,而是帮你连接到对你更有用、更有帮助的东西上。
Ben Goodger: 是的,我知道你在这方面有一些好故事。
网络有种我称之为“美丽的混乱”的东西,你不想总是被困在同一个地方。你希望能够拥抱网络的多样性和它上面的所有内容。
是的,我喜欢这个。我喜欢你甚至不需要离开当前站点就能做到这一点。是的,你可以在侧边栏上完成,然后你可以选择是否要去别的地方。
这有点像,我知道在维基百科 (Wikipedia) 上,你可以进行长达数小时的内容之旅,这几乎是维基百科的一个特色。而我感觉,“询问 ChatGPT”侧边栏为整个网络提供了这种能力。
它让你有能力在浏览随机网站时提出问题,然后转向不同的方向。
Darin Fisher: 这非常有用。如果你在寻找某些产品,你发现自己进入了某家公司或某个供应商的产品页面。但现在你可以问,“那么,还有别的什么选择吗?”
模型可以告诉你,“这里还有其他一些相关的网站,你可以去看看。”然后你就去了。现在你的世界变得更大了,对吧?
Andrew Maine: 我在视频和书籍方面有过一些美妙的发现,这些是我通过 YouTube 搜索或亚马逊搜索找不到的。我发现有些地方,因为 ChatGPT 更了解我真正在寻找什么,这让我从那些网站获得了更多效用。
Ben Goodger: 这实际上是 ChatGPT 的另一个整体特性,即个性化功能,你用得越多,它对你的了解就越多,这是 ChatGPT 一个超级受欢迎的功能。
对于 Atlas,这扩展到了你的浏览活动,比如你的网络历史。这使得浏览器能够创建这些“浏览器记忆”。
就像 Darin 之前指出的,你可以用它来帮你找回某个你记不清的网站。但它在代理这样的情况下也很有帮助。
我是美联航 (United) 的 Mileage Plus 会员,所以我倾向于在那个网站上查找航班。如果每次我让代理去做类似的事情时,我都必须告诉它,“并且总是使用美联航”,那会非常繁琐。
但它通过我的浏览,我的“浏览器记忆”,知道我经常使用美联航,所以它就会自动去那里。
Darin Fisher: 它能在你后续的查询中帮助你,对吧?
因为现在这个搜索体验对你真正关心的事情有了更多的上下文。所以最终它会变得高效得多,对吧?为你节省了大量时间,因为你不需要一遍又一遍地告诉它那么多事情。
我觉得这对我帮助很大。我想有些人可能对这些东西有不同的偏好。所以我们提供了控件,人们可以去查看和控制哪些“记忆”被使用。你可以关闭个性化,完全关闭它。
Atlas 中的搜索
Andrew Maine: 而且在使用它的时候,我发现我也可以去“图片”标签,去“新闻”标签,我就好像有了一个搜索引擎。虽然我以前不常去那些标签,但我现在开始更多地这样做了,因为我意识到它们在那里。
这是我试图理解的地方:它是一个浏览器,但 OpenAI 是否也在朝着自己的搜索引擎发展?
Darin Fisher: 嗯,部分原因是,当你构建一个浏览器时,人们是带着现有的意图来的,比如导航意图,或者他们确实想查找图片,或者想看某一类特定的信息。
所以我们把这些控件带到了 chat.openai.com 的登陆页面上,这样既能让人们感到熟悉,也能以他们习惯的方式发挥作用,对吧?
我们想确保人们在使用这个产品时,不会觉得需要学习太多新东西才能成功上手。我们希望他们有大量熟悉的工具和熟悉的东西。而且无论如何,这些功能对很多人来说就是很有用的。
Ben Goodger: 搜索和浏览是紧密相连的,几乎是同一件事。在我们构建这种体验时,内化这一点非常重要。
我认为这非常强大。正如我之前提到的,当人们以一种可能非常常规的方式搜索和使用浏览器时,他们也在学习,了解到有一个模型在那里会回应他们。
所以你会在顶部看到一系列“芯片”(chips),这些是快速链接,可以带你到你可能想去的地方,还有这些不同的标签页,你可以点击查看熟悉的、不同类别的信息,同时模型的响应也会出现。
所以你开始以一种常规的方式使用一个产品,然后你开始了解到,其实还有另一种方式,或者这个东西提供了一种超能力。
其中一些只是人们习惯的常规 ChatGPT 体验,但并不是每个人都在充分使用 ChatGPT。因此,当它成为体验的核心和中心时,我们有机会在人们的常规使用旅程中,将它呈现给人们。我认为这非常酷。
Darin Fisher: 类似于 Side Chat (侧边聊天)。
当然,你必须激活它,但它就在那里,“询问 GPT”。你可能会好奇,然后你就解锁了这个超能力,但它就在那里,上下文也在那里。
Andrew Maine: 对我来说,一个有趣的经历是,我第一天开始使用它时,我看着它,试图理解,好的,这基本上是一个集成了浏览器和 ChatGPT 的应用。
它不像我们只是把这两样东西粘在一起。它们好像同时存在,并且与 ChatGPT 有着深层的联系。
我让它,“你能为亚马逊添加一个书签吗?”过了一会儿,书签就出现了。
那是一个非常特殊的时刻,我开始理解,当 LLM 深度理解了系统并能够做出这类改变时,会发生什么。
Ben Goodger: 我们对此感到非常兴奋。我认为从概念转变的角度来看,我们正迈向一个你可以用任何你想要的方式,用最简单的方式,告诉计算机你想要什么的世界。
这对让更多人更容易地使用计算意味着什么,是极其深远的。
这也是公司的使命:让 AGI (通用人工智能) 造福全人类。我们对此非常认真。我认为,能够以这种看似微小的方式改变计算,最终会汇聚成更深远的影响。所以,是的,我们对此感到兴奋。
Darin Fisher: 我作为用户最初使用 ChatGPT 的一些经历,就是 Ben 谈到的这个想法。你知道,我过去很自在地坐在那里用 Google 搜索,但有时我不太清楚该输入什么 Google 查询。
当我意识到我可以向 ChatGPT 提出一个组织得很糟糕的问题,而它能理解我的意思,并给我一些反馈,也许我就可以用这些反馈再去 Google 搜索时,我就是这样开始使用 ChatGPT 的。
然后我逐渐意识到,“哦,为什么我不一开始就直接问它呢?”
你知道,对于人们来说,对待新技术都有一个接受的过程,对吧?我们都是习惯的动物。我们习惯了我们工作的方式,这对我们来说很有效,我们习惯了,所以这不是问题。
但是当你探索新事物时,你开始看到,“哦,其实有更好的方法。”对每个人来说,这个旅程都有些不同。
所以对我来说,Atlas 最让我兴奋的一件事就是,当你在地址栏输入时,默认是 ChatGPT,因为对我来说,这对我将要做的大多数事情都很有意义。
我觉得现在当我无法使用这个功能时,我会感到一点点摩擦,好像现在需要更长的时间,因为我必须在另一个浏览器里找到我的 ChatGPT 标签页,弄清楚怎么用它。
而有了 Atlas,你只需打开一个新标签页,然后开始输入。
Ben Goodger: 旧的方式是一种更手动的方式。而这种方式,我不需要那么“聪明”地提问。我可以说,“我有一个问题。”
Andrew Maine: 是的,我有一个问题,我可以用更简单的方式说出来。
我知道我仍然在上下文切换上有点困难,难以理解这不仅仅是一个 URL 搜索栏或一个空白的关键词搜索框,我实际上可以向它请求做事,而不仅仅是输入“尼泊尔的首都是哪里?”,然后看着它跳进 Google 搜索框。
Ben Goodger: 对。
Andrew Maine: 这就是问题所在。现在我会想,“哦,是的,当我在那个地方输入时,如果我输入 URL,我就得到 URL,但我也可以输入我的查询并执行它”,但这仍然需要我花时间去适应。
Ben Goodger: 作为一条通用规则,我发现有时候“模式” (modes) 可能是底层系统某些局限性的反映,而这些局限性,最终人类是无法理解的。
因此,我认为我们做这么多事情的“北极星”(North Star) 是,我们能否帮助你到达正确的地方,而不需要你知道“我应该用这个模式”或“我应该用那个模式”。这才是真正的挑战。
这归结为,你想如何使用这个工具?
因此,我们想把这个东西做成,就像 Darin 之前说的,你只需告诉它你想要什么,也许只是一个未成形的想法,它就会给你一个好的结果。它会帮你弄清楚问题所在。
当然,如果你是一个了解系统某些底层能力的用户,我们希望也为你提供调用这些能力的选项,把它们带下来帮助你。
这是一种你可以获得的效率提升。但系统肯定不应该要求你了解所有这些“咒语”。它应该能够接受你对它说的话,并给你好的反馈。
Darin Fisher: 是的,这让我想起了浏览器的早期阶段,在那个时代,人们会为他们的搜索引擎安装一个“工具栏”(toolbar),你知道,这意味着他们的浏览器上又多了一个框。Firefox 有一个专门的搜索框用于网页搜索。
但在那个时候,尽管人们非常习惯并且对此感到自在——你有一个框用来输入 URL,一个框用来输入搜索查询——当我们在开发 Chrome 时,我们想,“为什么要有两个框?为什么人们要停下来思考该在哪个框里输入?”
“只给他们一个框。”
现在你看看 Chrome,它的 URL 栏就是这样的,对吧?只有一个框,这已经成为行业标准了。
但即便是在 Chrome 的新标签页上,实际上也有两个框。顶部有一个地址栏,然后在中间是那个可能让人感到舒适和熟悉的 Google 搜索框,对吧?
我们想做的是,我们有点在推动自己,就像“嘿,你可能想和模型开始一段对话,你也可能对导航查询感兴趣。”但实际上,你可能在开始输入之前都还没决定你的意图是什么。
只有一个框要简单得多。
所以当你打开 Atlas 时,你在新标签页上只有一个框。这是我们从设计的角度真正试图实现的东西。我们做到了,它让整个系统对人们来说更简单一点。这可能有点不寻 常,也不是人们所习惯的,但我认为随着时间的推移,他们会喜欢上它。
最喜欢的功能
Andrew Maine: 你们最喜欢的功能是哪些?有哪些功能是你们很高兴能够实现的?
Darin Fisher: 天啊,你知道,每当你有机会构建一个新的浏览器时,你都有机会在某些事情上重新开始。
并非所有事情都能重来,因为我认为一个核心的矛盾点在于,人们已经习惯了他们的浏览器现在的样子。但你确实有机会重新思考一些事情。
所以我参与的一个功能是“滚动标签页”(scrolling tabs) 功能。这个想法源于一个洞察,即如果你让所有新标签页都从左侧或者只从一侧插入,那么标签页体验可能会更好一点。
如果你是一个会在浏览器中“固定”标签页的用户——这是一个非常高级的用例,可能很多人不知道你可以在 Chrome、Safari 或其他浏览器中把标签页固定在标签栏上——但这确实是一个常见的操作。如果你固定了一个标签页,它会被固定在左侧。
每当,假设那是一个 Gmail 标签页,当你点击链接时,那些新的网页会紧挨着那个固定的标签页打开。但如果你按下“加号”按钮,新标签页会出现在最右边。
结果就是,你在一天的工作中,你去 Gmail,从那里打开一个 URL,然后你点击加号按钮,在右侧打开标签页,最终你在中间积累了一堆旧的标签页。
所以,想要从中间关闭所有右侧的标签页来清理它们,会变得有点痛苦,因为你最后会留下一大堆杂乱的东西。
所以,“滚动标签页”是我们致力于改进标签页管理的创新之一。它不是一个 AI 功能,但是当你有机会重新思考浏览器时,这也是一个重新思考这些基础功能并尝试不同东西的机会。
Ben Goodger: 这也许是一个主要的生产力工具。所以找到这些改进点会非常令人兴奋。
是的,我们后来才意识到并欣赏到的一点是,如果你有一个能够更自然地扩展到拥有成百上千个标签页的浏览器,这意味着某些类型的事情对你来说就被解锁了。
所以每个人,或者说很多人,可能都熟悉搜索你打开的某个特定标签页的功能。在很多浏览器里,这有快捷键 Command + Shift + A 或者一个按钮。
通过我们的“滚动标签页”系统,它允许积累大量的标签页,而不会让它们都堆在你面前,你仍然可以搜索它们,找到那些旧的标签页。
在某种程度上,这就像是你浏览器中做过的事情的历史记录,你可以用一种非常熟悉的方式去搜索,因为它就是 Command + Shift + A,就在那里。你拥有这个能力,但界面又不会因此变得混乱。
Darin Fisher: Darin 谈论的是标签页搜索。你可以直接输入,它就会找到你想要的标签页。
但我认为这个功能最有趣的地方在于,你不需要关闭标签页。所以你最后可能会有,我想我的浏览器里可能打开了超过一千个标签页,我根本不会想到这会成为可能,你可能会认为这会是个问题,对吧?
Ben Goodger: 但事实并非如此。
Darin Fisher: 不,因为系统会为你管理内存。
是的,这个“滚动标签页”功能默认是关闭的。之所以默认关闭,部分原因是,尽管我们认为它很神奇,而且我是这个功能的超级粉丝,但它确实和人们习惯的方式有点不同。
我们不希望人们在接触这款带来了所有 AI 功能的浏览器时,一下子要学习太多新东西。
但当你允许成千上万个标签页被打开时,一件神奇的事情发生了:不仅你可以通过标签页搜索再次访问它,而且“模型” (the model) 也可以看到它们。
模型可以看到这些标签页。这意味着你的工作集可以非常大,比你脑子里能记住的要大得多。但你知道那里有某个东西,所以你会去问模型,它就可以回去和那些标签页互动。我认为这真的很了不起。
Side Chat 实战
Ben Goodger: 如果我不提一下 Atlas 的一个基础功能,那就是我的失职了,这个功能就是“询问 ChatGPT” (Ask chat GPT) 侧边栏。
这是我每天使用浏览器时都能从中获益的功能。
我拉开那个侧边栏,如果一个页面太长,我让它总结一下;或者我想弄清楚一篇文章到底对我个人有什么意义;或者我对世界上发生的某件事有疑问,它可以为我做一些研究,然后带着统计数据、事实和数字回来。
我在网上购物时用它来确保我看到的是真正最划算的交易。
我用它来帮助启动代理任务,自动执行我的一些生产力工作流。我让它为我构建 Google Forms (谷歌表单),帮我像问答一样询问我的同事,了解设计浏览器新功能的最佳方式。
Darin Fisher: 我真的很喜欢那个例子,如果我没记错的话,你当时说,你也让 Side Chat (侧边聊天) 帮你构思了那个调查的大纲。然后你又说,“嘿,你能帮我把它做成一个 Google 表单吗?”然后它就做到了。
这真的很酷。
Ben Goodger: 是的。所以,我们之前谈到过,把 ChatGPT 的力量带到你去的每一个网页上。我认为那个侧边栏真的就像 ChatGPT 坐在你的肩膀上,随时准备在你需要的时候给你一些建议。
有时候甚至是很简单的事情,比如,我在 Slack 里,有人分享了一些用另一种语言写的文字。我只需选中它,右键点击,询问 Side Chat,它就为我翻译了。这比我必须复制粘贴要容易得多,对吧?
代理模式的实际成效
Andrew Maine: 到目前为止,我在代理模式下最喜欢的用法是——我就不点名是哪家云服务商了,但它是一家非常大的公司,你经常会发现你运行了很多服务,然后你忘了它们是什么。
到了月底,你收到一张账单,一张非常令人困惑的账单,因为你试图弄清楚,“我以为我把这个关掉了,难道不是所有的都关了吗?”或者,“好吧,有些可能只是开了一点点,或者可能开了更长时间。”
试图看懂那张账单就像在读一本苏联的拖拉机手册。
然后我进去,我说,“嘿,我收到了这张账单。我以为我已经关闭了服务。我不知道是怎么回事。你能帮我看看吗?”
我看着它在网站上导航,转到账单页面,找到我正在运行的各种服务,向我解释每个服务在做什么。
我问,“我能把这个关掉吗?”
“是的,关掉它。”
那可是一个月 100 美元的账单,就这样省下来了。
Ben Goodger: 哇,那真是太棒了。
我也有一个例子。我最近做了一些体检。有时候,医生需要一段时间才能回来向你解释结果的含义。
而与此同时,你的“患者门户”网站上已经能看到那些“医生语言”写的东西了。我看不懂那些。那不是用通俗易懂的英语写的。
你可以问它,它会告诉你这(检查结果)对你来说意味着什么。我发现这至少对我来说真的很有帮助。
Darin Fisher: 为你省钱,帮你找到答案,这东西感觉非常... 我非常确信,这将日益成为人们与信息互动的方式。
或者你正在使用某个非常流行但又非常复杂的人力资源 (HR) 工具,你会想,“那个东西又在哪里?”当然,它已经为你研究了手册,可以为你指路。这真是太了不起了。
Andrew Maine: 我感觉,我花了很长时间才意识到,一旦我有了 iPhone,我的口袋里就总是有相机和手电筒了。
在很多情况下,我都会想,“啊,我在商店里看到的那个东西叫什么名字来着?”然后才反应过来,“你本可以拍张照片的。”或者,“天啊,真暗。”然后才想到,“你有手电筒。”
我觉得对于这些新工具,它们有很多我们尚未完全意识到的能力。
Ben Goodger: 即使是搜索,我们也看到了这一点。我们中有些人是搜索的“高级用户”,而对另一些人来说,搜索完全是个谜。你认为我们会在这里看到更快的加速吗?人们会开始分享并理解如何使用它吗?
是的,我认为 Atlas 目前所处的阶段是,我们认为这是一个非常强大的工具,但我们并不知道人们会以何种方式使用它。从这个意义上说,它有点像互联网。
因此,我们之所以想在那个时候发布它,一个原因就是我们想看看人们如何使用它,并听取人们的反馈,了解它在哪里做得好,在哪里很糟糕需要改进。
但我认为,随着时间的推移,我们会对它有更好的感觉。我也认为我们需要在更多情况下帮助解释“什么时候是使用它的正确时机”。
因为我认为,创造出感觉像魔法的东西,一部分工作就是让这种魔法在更多人、更多情境下变得真实。我们不想依赖人们总是自己想到,“我应该在这个时候问这个问题。”
Darin Fisher: 是的,我们很容易成为习惯的动物。我们以我们习惯的方式使用浏览器。我们以我们习惯的方式使用电脑。
我们并不总能意识到有更好的方法或更高效的事情可以做。
我对此深有感触,就像学习如何使用 ChatGPT 的过程一样。这就像一种顿悟,“哦,我应该直接问模型。这会节省我时间。”
但这需要一点时间,对人们来说有一个转折点,在他们旅程的某个时刻,他们会开始学习如何使用这些工具。可能有一些人是早期采用者,他们可以指明方向,找出方法,并分享这些想法。
但同样,我认为很多人还没有找到使用这些工具的最佳方式。
Andrew Maine: 我发现我仍然在试图关闭标签页,因为我还在那个时代——我开始使用浏览器时,会收到弹窗信息说,“你打开了太多的浏览器标签页。”
是的。而现在,计算能力、性能以及这些东西的内部管理已经非常先进了。所以我在想,我在很多方面都没有被“优化”。
Darin Fisher: 是的,所以我们浏览器的另一个“非 AI 功能”是,我们借鉴了移动浏览器的经验,认识到你的笔记本电脑的计算资源并不是无限的。你还要关心电池续航。
所以我们对到底有多少标签页可以被一个“活跃的”网页所支持设置了一个限制。
桌面浏览器更传统的做法可能是,试图减轻那些你很久没用过的后台网页的成本。而我们,会直接关闭它们。
如果你回到那个标签页,它会重新打开。我们保持了一个合理的限制。我们应用了一种,怎么说,有点聪明的缓存算法,试图智能地保留你关心的标签页在内存中,以减轻你电脑的负担。
你可能还会注意到 Atlas 重启速度超级快。当你重启 Atlas 时,由于它的结构,Owl 进程与 Atlas 进程是分离的——Owl 是我们嵌入的 Chromium。
所以这两者可以并行启动。我们可以非常迅速地重启 Atlas,带着你所有的标签页和相关数据。但网页还没有被加载。
当你点击它们时,它才会把那些网页带回来。
通过这种方式,整个系统可以保持快速、轻量。而且因为我们能够将 Atlas 和 Owl 作为两个独立的应用来构建,Atlas 控制着 Owl。Owl 将网页的渲染投射到 Atlas 中。但 Atlas 本身可以保持是一个相对轻量的 Swift 应用程序。
为什么选择 Chromium?
Andrew Maine: 为什么是 Chromium?
Darin Fisher: 这是个非常好的问题。我在那个以前叫 Twitter 的网站上回答过这个问题。
我说,是为了“网络兼容性”(web compatibility)。
事实证明,不幸的是,或者说不管是好是坏,很多网站真的只被设计为在 Chromium 上工作。有一些主要网站的功能,我就不一一点名了,如果你不使用基于 Chromium 的浏览器,它们就是不存在的。
另一个原因是,Chromium 扩展,基于 Chromium 构建的扩展,非常受欢迎。
当你基于 Chromium 构建你的浏览器时,这意味着那些扩展可以直接工作。
所以我们想确保我们构建的浏览器首先对人们是“好用的”,他们关心的所有网站都能被支持,那些网站的所有功能也能被支持。我们还想确保他们可以安装任何他们关心并且习惯在浏览器中使用的扩展。
Andrew Maine: 而且似乎还有,我们这些非技术人员,只听说过 Chrome 和 Chromium,但据我所知,这背后还有一个更深的血统,甚至可以追溯到更早的 WebKit 和 KDE 等等。
Ben Goodger: 我想说的是,社区中对新的渲染引擎的出现抱有很大的热情。多年来,这也确实是网络 DNA 的一部分。
但与此同时,就像 Darin 说的,当你构建一个新浏览器,而你的产品还没有那么多用户时,你只是希望网络能像人们今天所知道的那样正常工作。
实际上,当我们开始做 Chrome 时,我们也有同样的担忧。比如,今天的 Chromium 有 Blink,这是它自己的渲染引擎,是从那个血统中分离出来的。但在那个时候,我们并没有太多意愿去冒那样的风险。
所以,Chromium 渲染引擎是基于 WebKit 的,那是 Safari 的渲染引擎,是开源的。而 WebKit 本身又是基于 Linux 世界一个更早的渲染引擎,叫做 KHTML。
是的,回顾历史真的很有趣,你可以看到这些开源项目是如何分叉和分支的。Chromium 中甚至有来自 Mozilla 项目的代码,那要追溯到 1990 年代了。你可以找到这个血统。
所以,浏览器是这样一种随着时间层层构建起来的技术蛋糕。而我们真正想要创新的,是下一个层面,即 AI 模型如何介入,以及它如何与基础层进行连接和互动。
因此,对我们来说,基于 Chromium 构建,就像是给了我们一个众所周知的坚实基础。
我们基于 Chromium 构建的方式与通常的浏览器非常不同。大多数浏览器只是拿走 Chromium,然后对 UI (用户界面) 进行分叉 (fork),或者在 Chromium 之上再叠加一层 UI,但它与 Chromium 运行在同一个进程中。
这意味着,如果 Chromium 在工作,你的应用程序就不能工作。
而在我们用 Owl 建立的这个架构中,Atlas 能够与所有渲染网页、生成网页的活动并行工作,这非常酷。
Andrew Maine: 所以如果浏览器部分崩溃了...
Ben Goodger: 是的,如果 Owl 部分崩溃了,如果那块出了问题,Atlas 可以重启它。
这其实是一件非常有趣的事情,因为我记得当初我们设计 Chrome 的时候,有一个想法是,“网页可能会崩溃,因此你的浏览器应该还能用。”
然后,因为 Chromium 已经成为一个非常复杂的网页平台,它本身也变得超级复杂。
而现在,Atlas 就像是围绕在外围的一个非常轻量的框架,它真正关注的是使用浏览器的核心生产力用例,而 ChatGPT 就像一个你可以随时带到任何页面上的工具。这才是它真正的重点。
而 Chromium,也就是 Owl 这部分,则能够专注于成为那个“平台”。
然后,这两个部分互不影响,它们对彼此可能遇到的困难具有“弹性”(resilient)。从这个意义上说,这是真的。
关于 OpenAI 和我们构建的这个系统的好处,还有一个有趣的事实。
每个在 OpenAI 入职的工程师都会在他们的第一天合并 (merge) 代码。
如果你想想 Chromium 作为一个平台有多么庞大,它真的超级强大,但代码量也很大。把所有这些代码下载到你的设备上需要花点时间。
Andrew Maine: 只是有点复杂。
Ben Goodger: 是的。而且编译它也需要很长时间。
我们通常是在新员工完成了所有入职培训的下午才见到他们。然后他们必须合并一个变更。
如果你必须在你的第一个下午就检出 (check out) 所有代码,编译它,然后再对代码做一个修改,这可能会非常困难。
但因为我们的架构方式,他们不需要这样做。他们可以去修改 Atlas 端的代码,那部分可以非常快地被检出和构建。我们的工程师能够立刻投入生产,在他们第一天就合并代码,在他们第一...
Darin Fisher: 与此相关的是,当你开始一个新项目时,你总能做出新的技术选择。当我们开始做 Chrome 时,我们说,“什么是最新、最好的代码构建方式?”
快进到开始做 Atlas,我们想,“在 Mac OS 上构建原生应用的最新、最好的方式是什么?”
所以我们当然会用 Swift。我们会在合适的地方使用 Swift UI。我们会使用所有这些...这个应用是在 Xcode 中构建的,用一种非常熟悉的方式完成。
所以那些习惯于做 Swift 开发的人,也许因为他们是做 iOS 应用的,他们可以进来,立刻就能上手,因为这不是一个陌生的代码库,不是一个陌生的系统。然而,它同时又在驾驭着 Chromium 的力量,而 Chromium 本身是超级复杂的。
Andrew Maine: 当你从外部看这个问题时,很多人会拿它和 Operator 比较,说“嗯,他们以前做了 Operator,现在他们又在做 ChatGPT Atlas。这是他们要“动真格”的吗?还是只是又一个实验?”
Ben Goodger: 浏览器,我认为它是一个超级核心的生产力工具,是你需要依赖的东西。
所以我对它的看法一直是,这是一项长期投资。我们也正是以此为出发点来做的。
我们已经发布了一系列功能,这只是第一阶段。如果回到浏览器的历史,我称之为网络浏览新纪元的“Netscape 1.0 O”(网景 1.0)。
所以未来还会有很多改进,包括我们根据人们的初步反馈而构建的功能,以及我们通过与研究部门合作想出来的东西,还有一大堆全新的功能,都会随着时间的推移而推出。
我们从人们那里听到的另一件事是,他们希望在不同的平台上看到它。
是的,基本上就是,“这个浏览器在我的 Windows 设备上或手机上用不了”。
所以这些是我们正在思考和努力的事情。因此,我们有一个很长的功能增强路线图。
我们希望人们既能对它会随着时间推移变得更好抱有信心——实际上,它每周都在变好,当我们推送更新时——他们也会越来越多地在他们所在的更多界面上看到它。
所以这绝对是我们的长期投资。
Darin Fisher: 是的,我们把这个应用做到了一个程度,OpenAI 内部的用户们开始享受这个产品。你知道,我们当时处在一个阶段,我们得到的反馈都是,“你们为什么还不发布它?”
Ben Goodger: 是的。
Darin Fisher: “为什么还不发布它?”这正是我在想的,因为我们没有得到新的反馈了。我们意识到,我们已经准备好发布这个了。我们想和世界分享这个。我们想听听其他人是如何体验它的。
我认为,得到的反馈是各种各样的惊叹。当然,也有人说他们最爱的某个功能没有了,或者像 Ben 说的,“Windows 在哪里?”
但前几天,我 14 岁的儿子回来说,“天啊,我学校的朋友们超爱这个浏览器。”
我问,“真的吗?他们喜欢它什么?”然后他就开始谈论他们尝试过的所有不同的 AI 功能。
我认为看到人们那种着迷的火花真的很有趣,无论是孩子,还是我们的同事,还是朋友,当他们分享使用这个东西的体验时。
我不知道,我就是喜欢看人们...我妻子第一次试用 Atlas 时,当我们做亲友测试时,她非常兴奋。她能够去探索研究某个任务,并向 Side Chat 询问她正在看的东西。她玩得非常开心。
Andrew Maine: 我妻子也爱它。这不是谎言,也不是夸张。
它发布的那个晚上,我们坐在床上,我在看书,我转头看她,她对我说,我向你发誓,她说,“我无法停止思考 ChatGPT Atlas。”
因为对她来说,这是她第一次使用这样的代理 (agentic) 系统,能够去做这些事情,这对她来说是一个巨大的“解锁”。
她最爱的工具 ChatGPT,现在连接到了浏览器上。
Darin Fisher: 是的,完全正确。
因为当你“我正在看这个网站”,或者“我正在做一些研究”时,它为你省去了那些繁琐。我现在可以直接问它关于我之前和它谈论过的东西。现在我们可以把这个作为上下文,我们可以继续深入,无论主题是什么,当 AI,当模型就在你身边时,一切都变得容易得多。
Ben Goodger: 我认为很多人都在纠结如何在某些网站上完成那些看似非常复杂的任务。
我认为其中一个网站就是,如果我在一个基于网络的电子表格程序上,不管你最喜欢哪个,我想以某种特定的方式将这些数据可视化,我该怎么做?
如果你手边有一个工具,你可以用一种非常一致的方式去询问它,让它介入并提供帮助,我认为这真的非常、非常有趣。
另一件我觉得很有趣的事情,与你妻子的反应有关,那就是这对世界上很多人来说,是一种全新的能力。
我对这个工具真正感到兴奋的是,我们的模型能力是在不断进化的。所以在任何给定的时间点,它都不是最终状态。但我们有机会向人们展示这东西是如何工作的。
我认为通过这种方式,我们可以建立更多的理解、更多的信任,关于这项技术是如何在为你服务的。
我认为,即使我们明天就拿出了世界上最好的模型,能以你个人希望的方式完美解决所有问题,你可能仍然希望能够参与其中,了解这到底是怎么发生的。只是为了你自己的认知。
我认为随着时间的推移,当你的信任度建立起来后,最终你会放心地将非常复杂的任务完全委托给这项技术。但我们还没有到那个阶段。
因此,我真正感到高兴和兴奋的一件事是,人们能够来观察这项技术的下一步发展,看着它,看它如何运作,当它不好用时,给我们反馈。
但我认为你可以从中感觉到它是如何工作的。因此,你会知道它的能力范围是什么,你也会知道控制权在哪里。比如你希望它停止做某事,或者你希望它以不同的方式做某事,你都可以告诉它。
Darin Fisher: 我认为你可以在这个产品中调高或调低你使用模型的程度和方式,但它就在那里。你很容易再次尝试。
我认为有时候,我感受到的 ChatGPT 的魔力在于,当它某次真的运行得非常好时,我会想,“哦,我下次还要用这个。”对吧?
你会有那些神奇的时刻,你会想,“天啊,我要因为这个改变我的习惯了。”对吧?
我认为在这种情况下,人们很容易使用熟悉的模式,对吧?我打开新标签页,我做一个搜索,它带我进入一个包含我可以点击的链接的体验,但同时也有模型的响应。
所以你开始了解到,也许我不用去那个我以为能回答我问题的网站了,答案就在这里。
我可以去探索它,我还可以再问它一个问题。你仅仅是通过以一种熟悉、常规的方式使用这个产品,就开始学习到这个模型的力量。
所以对我来说,看到它可能为人们打开一扇门,让他们开始意识到这个模型的能力到底有多大,这是非常令人兴奋的。
Andrew Maine: 展望未来,首先,让我们看看短期。
我能理解 Windows 版本,你们会希望它与 Mac 版本的功能基本保持一致。但是当你们谈论移动端时,当我在桌面上,我有很大的空间可以放一个侧边栏,在那里进行聊天,这是一回事。
但当你们谈论在移动端浏览时,正如你们所知,这尤其棘手。把搜索栏从顶部移到底部,或者别的什么,都像是革命性的改变。
你们是如何考虑这个问题的,移动端的体验?另外,我们是否会在使用这些工具时,变得更“代理化”(agentically)?
Darin Fisher: 也许一个有趣的事实是,我们最初的一些探索实际上是在移动端进行的。
我们思考的方式是,“把模型带到网络上”到底意味着什么?
这可以有很多不同的形式。当然,ChatGPT 作为一个应用存在于你的手机上。你可以想象你可能会以各种方式,分享使用 Atlas 产生的那些“记忆”,对吧?
所以,这个功能在移动端可以有很多不同的风格和形式来体现。
但在基础层面上,我们会问,“我们如何能把网络带给模型?”在移动端什么才是合理的?
用户体验 (UX) 可能会看起来有点不同。很明显,正如你指出的,那里的形态是不一样的。不过我们有非常有才华的设计师。我敢肯定他们会想出好办法来解决这些问题。
Ben Goodger: 我确实认为在移动端,至少通过我自己的使用,我注意到我的用例更偏向于“信息检索”。
比如我有一个问题,我实际上经常使用 ChatGPT 应用。如果我对周围的某个东西有疑问,我会把摄像头对准它,然后问,“这是什么?”你知道,诸如此类。
所以我认为在很多这样的情况下,网络内容是那个旅程的一部分。我们想确保 Atlas 的那种用户流程——在那里你可以查看一些网络内容,然后可以问后续问题,然后再回过头来看内容——那种感觉非常好。
这是我们目前正在努力解决的问题。所以,除了它对我们来说非常重要,要确保它给人的感觉非常好之外,目前还没有太多的想法。
Darin Fisher: 是的,我们从人们那里了解到移动端的重要性,因为他们在笔记本电脑上做的工作,希望能在手机上以某种方式继续下去,对吧?所以你可以开始想象那里存在的各种可能性空间。
五年愿景
Andrew Maine: 5 年后,我们在使用网络和这类工具的方式上会是怎样的?
Ben Goodger: 我希望我们能达到一个境界,人们不再过多地考虑他们所使用的工具的细节,而是更多地向系统表达他们想要什么。
然后系统足够智能,能够以一种好的方式理解如何回应。
从这个意义上说,作为人类,我们可以专注于最高层次的问题,即“对我来说,什么是最有趣的事情?”
模型也许可以接管,代理可以驱动那些不那么“开胃”的工作,那些我称之为“苦差事”(toil) 的、从一堆不同来源拉取信息的繁重工作。
也许它可以做很多对你来说似乎非常困难的事情,因为你以前没有做过。它知道如何做那些事情,然后你就可以专注于你想做的事情。
所以我设想的世界是,未来可能互联网上会有大量的流量是“代理性”的 (agentic)。甚至可能大部分互联网流量都是如此。
我仍然认为人们也会产生大量的流量。
但是,这应该是高效的。人们应该专注于做他们想做的事情,把更多的工作,更多的那种“苦差事”,委托给可以承担那些事情的代理。
然后,如果你必须在一个项目上做一个决定,也许你的代理会回来,给你一些选择。
比如你要去度假,“你想住这家酒店还是那家酒店?”你可以在它们之间挑选。你来做选择。
但是所有那些繁琐的点击、在互联网上搜寻的工作,也许它已经帮你完成了第一遍,并为你呈现了一些选项。
Andrew Maine: 我们已经谈了一些,作为这个工具的用户和开发者,你们是如何看待它的。
如果我是一个拥有电商网站的人,如果我正考虑“我要把信息放到网络上”,并且我知道,一段时间以来一直在讨论,“当 LLM 去搜索网络时会发生什么?”
现在我们进入了代理的世界,当代理在使用它时,再加上 LLM 驱动的浏览器,你们会建议这些人如何思考?
你是说那些“发布者”(publisher) 吗?
是的。
Darin Fisher: 我的意思是,我认为这真的很有趣。在某些方面,我思考的这有点关系到 Ben 刚才谈到的。
你看到最近的模型,它们已经学会了根据你的查询来决定,“嘿,我应该去互联网上看看,来回答你的问题,”对吧?
所以我认为,这些模型如何能帮你连接到发布者、网络应用和任何在那里内容,是很有趣的。
无论是给你一个摘要和一个引用,让你能深入了解,或者甚至只是把你连接到那里,因为那才是你真正想要的——如果你的意图是导航到一个网站,那么它可以帮你到达那里。
我认为我们在 Atlas 中探索的事情之一就是如何,例如,更好地处理和满足“导航意图”。
有时候人们来到他们的浏览器,意图非常明确,“我就是想在这个网站上买这个产品。”我们的工作就是让你尽可能快地到达那里。
所以,构建 Atlas 的一个要素就是确保我们能很好地服务于这些类型的查询。
其他时候,你只是想探寻模型的知识,让它为你研究一些东西。有时候,这需要它调用工具来代表你完成。
所以,再次回到 Ben 刚才谈到的,我设想未来的世界,你不需要那么明确地规定你希望模型使用什么工具,而是它有一个令人难以置信的工具“调色板”可供它调用。其中一些工具就可以是,你知道,启动你的浏览器之类的。
Andrew Maine: 10 年后我们还会使用网页吗?
Darin Fisher: 我想是的。你知道,这有点像...
这就像是一个人们用来发布内容的世界的“织物”,这是人们把内容放出去的核心基础。所以这有点像,你知道,“互联网超级高速公路”,所有这些比喻。
但它就像是这样一个开放的“织物”,人们可以在上面发布内容。我没看到这一点有任何改变。
这是世界上最大的,正如你之前提到的,最开放的平台。我认为这种开放的力量总是会吸引人们把内容放上去。
我的看法是,这些工具,是的,它们能够理解那个“织物”,理解那个互联网,理解那里的内容。但它们也能够把那些内容带给人们,把人们连接到那些内容。这可能会非常强大。
再说一次,这一切都是为了服务于用户的意图。我认为,思考我们如何能做得越来越好,真正服务于那些用户的需求,是非常有趣的。
最终,当人们把内容发布出去,这些内容是面向人的,如果你发布的内容是,你知道,一个供人购物的画廊或类似的东西,我们想帮助人们找到它,帮助人们连接到它,帮助人们完成他们正在进行的任何旅程。
实用技巧与结束语
Andrew Maine: 这真是令人兴奋。感谢你们的分享。
最后还有什么建议吗?有什么“高级用户”技巧吗?
Ben Goodger: 是的,绝对的,“滚动标签页”功能是我们俩都超爱的一个功能。
Darin Fisher: 是的,我只想说,用你的好奇心去“挑战”你自己。
就像我说的,这还处于非常早期的阶段,但在你访问的任何一个页面上,在更多的页面上,问一个问题,你可能会对你得到的答案感到惊讶。
Ben Goodger: 太棒了。我们很想听听大家对这个产品的体验如何。所以请继续给我们反馈。
Andrew Maine: 一定。Ben,Darin,非常感谢你们。
Ben Goodger: 谢谢你。
Darin Fisher: 谢谢。
