src="https://api.eyabc.cn/api/picture/scenery/?k=90707359&u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FppoTzQq3lPhiaC0vicRnic3Cibx3XicBhrduojBFtUrYN3dNg1tyPlNFN0icAKNDYZPOAfc67IibJY8Ofc0YXgxr7YyGg%2F0%3Fwx_fmt%3Djpeg">
Perplexity CEO Aravind Srinivas:从AI搜索引擎到操作系统,Comet的宏大愿景
核心要点
- 01
Perplexity推出名为Comet的智能体浏览器,其终极愿景是演化为一种能自动化处理重复性任务的AI操作系统。
- 02
AI Agent成功的关键在于“智能”与“上下文”的结合,而浏览器作为用户工作与生活的核心界面,是获取上下文的终极形态。
- 03
Perplexity采取“颠覆者”策略,在产品尚不完美时即推向市场,旨在开创“智能体浏览器”新品类,并坚信订阅模式足以支撑起千亿美元级的业务。
背景
本期节目是 Semafor 科技编辑 Reed Albergotti 对 AI 搜索引擎公司 Perplexity 的联合创始人兼 CEO Aravind Srinivas 的深度访谈。访谈围绕 Perplexity 的最新产品——智能体浏览器 Comet 展开,深入探讨了其作为 AI 操作系统的宏大愿景。对话内容涵盖了 Comet 如何通过理解上下文、连接各类应用来自动化处理生活与工作中的任务,Perplexity 在与谷歌、OpenAI等巨头的竞争中的定位,以及 Aravind 对于AI 产品、商业模式和未来硬件形态的独到见解。
01 Comet的诞生:AI操作系统的宏大愿景
访谈从主持人试用 Comet 的惊艳体验开始,引出其核心定位——一个未来的AI操作系统。Aravind阐释了何为AI操作系统:它能处理流程性、重复性的异步任务,具备状态管理、后台进程和依赖处理能力,使浏览器本身成为电脑中的“迷你电脑”。
大家好,我是 Reed Albergotti,Semafor 的科技编辑。我做科技报道已经超过十年了,感觉一天里大部分时间不是在打电话,就是在开视频会议,疫情之后尤其如此。很多访谈是为了写文章,最后大量内容都被剪辑掉了。于是我就想,干脆把我本来就要做的采访,录成视频发到 YouTube 上。今天大家将看到的,就是我和 Perplexity 的联合创始人兼 CEO Aravind Srinivas 的访谈。
Perplexity 是一家做 AI 搜索引擎的公司。他们最近有个非常宏大的想法,推出了一个叫 Comet 的浏览器,但他们相信,这东西未来可能会成为一种 AI 操作系统。我自己也试用了一下,感觉是个非常强大的工具,能让你一窥 AI 未来的发展方向,看到当 AI 真正开始在我们生活中变得实用时会是什么样子。这次对话里有不少真知灼见,希望大家喜欢。我过去几周休假的时候,就一直在试用 Comet。
你觉得怎么样?
我觉得它能做到的事情太惊人了。我还在推特上分享过,我可以直接让它的“边车”(sidecar)帮我改签美联航的机票。这类体验确实让人窥见到未来的一角。你们的愿景就是将它打造成一个AI操作系统,对吗?
是的。如果我们能处理那些流程性的、重复性的、异步的任务——也就是那些不需要实时运行和更新的任务——那它就开始有操作系统的感觉了。因为操作系统的根本特性,就是要有状态(state)、有后台进程(background processes),还得知道任务跑到哪一步了、怎么自动接着跑、怎么保存状态、进程之间别打架、内存管理要清晰,还得处理好依赖关系。
这些都需要在 Agent 层面实现,而且是为自然语言驱动的任务设计的,而不是那种写死的系统。这样一来,你的浏览器本身就会感觉像是你电脑里的一个“迷你电脑”。
02 AI Agent的核心:智能与上下文的双轴模型
Aravind 提出了一个理解 AI Agent 发展的双轴模型:“智能”轴代表模型本身能力的提升,“上下文”轴则代表AI获取和利用个性化信息的能力。他强调,浏览器是最终极的上下文载体,因为它触及用户工作和生活的方方面面。将强大的智能与丰富的上下文无缝融合,是破解 Agent 难题的关键。
一旦你的浏览器能连接到电脑上的其他应用,它就感觉像是主应用,其他应用都成了外设。当然,我们并非想让用户只用 Comet。你想自己打开 iMessage 发短信完全没问题。但关键在于,如果你需要,Comet 也能接入 iMessage。
比如,我可能在 iMessage 上跟你沟通,但同时我们还有一个邮件组在讨论播客录制的事。你在短信里发的笔记,我的邮箱是不知道的。所以,如果我在会前跟 AI 说“帮我准备一下跟 Reed 的会”,它可能会从日历和邮件里调取信息,但找不到你在短信里的内容。你不能反过来怪用户“为什么不一直用 Gmail?”。用户想用什么就用什么。AI 必须自己搞定一切,把所有必要的上下文(context)都整合起来。
这其实就是许多人所说的“上下文工程”(context engineering),它至关重要。我们可以用两个坐标轴来理解:一个轴是“智能”,另一个轴是“上下文和个性化”。横轴上,模型越来越强,从 GPT-3.5 到 4、4.5、5,能力从高中生到博士,再到能有新发明。而在纵轴上,是从帮你起草邮件,到能调用个人信息办事,再到自动处理长周期重复任务,甚至在你不想参加的会议里当你的“替身”。
我们就是在纵轴上不断前进。在我看来,上下文领域的“GPT-5”或“GPT-6”,基本上就是浏览器。因为它能接触到我们做的每一件事,是我们工作和生活都在用的产品。你可以做一些像“记忆”功能那样写死的东西,但浏览器才是最终极的上下文。所以,如果我们能把智能和上下文这两方面都做好,让体验非常自然、无缝融合,用户界面又很熟悉,那我们就破解了 Agent 和个性化的难题。
你说控制电脑上的其他应用,但现在很多东西都是基于网页的。比如我让它帮我报销,我希望它能看看我的信用卡账单,再看看我的日历,然后把这些信息关联起来。很明显,它现在还做不到。
是的,现在还做不到。
但这就是你们的方向。不过,这到底是模型的问题,还是你们围绕模型构建的那些东西的问题?
两者都有。模型本身存在局限性。我觉得我们现在能用浏览器完成哪些任务,确实受限于当前模型的能力。但这感觉和我们刚见面那会儿很像,当时 Perplexity 跑的还是 GPT-3.5,多数人都觉得产品挺有意思了。但现在回头看,跟今天的产品比,那时的幻觉可太多了。
所以,我会说,Comet 今天的 Agent 能力,就好比是 2023 年初、GPT-4 问世之前,Perplexity 作为答案引擎的能力。
03 颠覆者之路:在不完美中开创“智能体浏览器”新品类
Aravind 承认 Comet 目前尚不完美,但这正是创业公司的优势,即“创新者的窘境”中的颠覆者角色。他认为,不能等模型完美了再行动,必须基于“模型终将变得强大且廉价”的假设来构建产品。Perplexity 的目标不是在旧赛道上与 Chrome 竞争,而是要开创一个全新的“智能体浏览器”生态系统。
未来肯定会出现比 Claude 3 Opus 更强、长文本能力更好、指令遵循和工具调用更可靠、同时价格也更便宜的模型。这一定会发生。到那时,Comet 就会变得扩展性更强、更便宜、也更可靠。但我们不能等到那一天才开始做 Comet。在 AI 领域,你必须假设模型终将变得强大且廉价,并基于这个假设来定位你的产品、技术和当前的技术栈。
这也算是你们作为颠覆者的优势吧?你们的竞争对手显然是谷歌,OpenAI 也在做竞争产品。但你们的态度是,我们愿意先推出一个还不算完美的产品。作为一个创业公司,你们有这个资本,这有点像是“创新者的窘境”里你们扮演的角色。
没错。不过说到“还不算完美”,我认为它对很多人来说已经相当有用了。而且,自从发布以来,用户使用 Agent 查询的比例,以及把 Comet 设为默认浏览器的用户比例,其实一直在增加。这说明它已经是一款足够成熟的产品,可以从 Chrome、Edge 等浏览器那里抢占市场份额了。
但我们的目的更多是创造一个全新的生态系统,一个“智能体浏览器”(Agentic browser)的新品类,而不是在旧的赛道里竞争,因为我们认为旧的市场反正也要消失了。当你作为一个先行者,自然会走在最前沿,也难免会有些粗糙的地方。
而且从等待名单的人数来看——已经快到一百万了——有大量用户都非常有兴趣尝试,并且愿意忍受它的不完美。这足以说明它在人们眼中是多么有价值。我预计,随着更多大公司进入这个新市场,这个趋势只会加强。人们会慢慢开始通过浏览器这个平台,自动化一部分工作和生活。浏览器的意义也将对每个人变得不同。它不再只是一个消费互联网内容的前端工具,而会开始让你感觉:“这就是我的操作系统”。
它确实很有用。这感觉很像互联网早期,人们习惯输入一长串网址,后来才意识到直接在搜索框里输入关键词才是正确的方式。我觉得我们现在对 AI 的使用也处在类似的阶段。就连我自己,在电脑上做很多事的时候,一边做一边会想,这太傻了,我应该用 AI 来做,但我就是习惯了。
是的,我也一样。你用传统方式做事有两个原因:一是习惯,二是熟练。比如我找邮件就特别快,记性很好。但我觉得,这种技能在未来会失传,没人会需要了。就像你不再需要很会心算两三位数乘法一样。
我们对于现在的 AI 时代来说,就像是“婴儿潮”那一代(boomers)。我们重塑自己的方式,就是去学习这些新技能和新的做事方法。我自己也有这个问题。有时候我还是会凭肌肉记忆去 YouTube 视频里找一段内容,打开文字稿用 Command+F 搜索,结果找不到。其实我完全可以直接问 Comet:“带我到这个视频里 Reed 讲 Perplexity 的那部分。”它很快就能带我过去。
从 Comet 中我得到的另一个重要感悟是:我们不必等待每个网站都为自己开发出好用的 AI。我们只需要这一个通用的 Agent,像个“边车”一样一直陪着你。无论你在哪个网站上,都可以让 Comet 帮你。这种感觉很特别,就像一个通用的 AI,实现了每个人都曾有过的那个梦想:一个助手,无处不在地帮助你。这不仅仅是模型变强的问题,更是要把 AI 打包进一个合适的环境里,让 AI 和你这个人类用户在同一个环境里无缝集成。
04 硬件的未来:为什么浏览器比新设备更关键?
Aravind 讨论了在移动端实现 Comet 的挑战,特别是苹果 iOS 的 WebKit 限制和后台进程限制。他进而阐述了自己对AI硬件的看法,认为当前阶段,开发一款功能强大的移动浏览器,比创造新的硬件形态(如AI Pin或吊坠)更为重要和有效。浏览器能以一种更安全、用户友好的方式获取上下文,而无需“毛骨悚然”地持续监听用户。
这感觉就像需要一个产品,专门为我们这些“婴儿潮”式用户服务。这个 AI 会观察你怎么用电脑,然后给你推荐工作流,告诉你如何节省时间。
对,这正是我们理想中应该达到的状态。但这里有个难点,就是不能让用户觉得“这 AI 就是想让我多用它,好让我掏钱”。主动式AI(proactive AI)一直没能火起来的原因就在这里。当 AI 主动介入时,用户对垃圾信息的容忍度非常低。它必须在你主动介入时,真正带来“魔法般”的体验。
另外还有一个问题,就是信任。我发现 Comet 不会索要我的密码之类的东西,对吧?
它不需要知道。这正是浏览器架构的魔力所在。只要你导入了 cookie,访问网站就默认是登录状态。AI 只是像你一样消费网站的登录后版本,但它不能替你登录或接管你的账户。这就是浏览器架构相比于其他 Agent 模式最大的优势,从安全角度看,这未必是好事。
说到苹果,Comet 是基于 Chromium 的,但在 iOS 上只能用 WebKit 引擎。你们有办法让它在移动端运行吗?
从设计上讲,所有 iOS 上的浏览器都必须用 Safari 的WebKit渲染引擎。此外还有些限制,比如应用在后台时,后台进程不能在客户端长时间运行。这就带来了架构上的挑战。解决方案要么是在云端为你运行一个虚拟浏览器,要么就需要苹果在政策上更灵活一些。
这些围绕移动生态系统的问题,在多大程度上是你们想做硬件的原因?
我对硬件感兴趣,不只是因为苹果的限制。但我认为,如果你真想做硬件,就得做手机。其他形态的硬件,比如AI吊坠,其核心价值在于获取手机之外的上下文,比如通过持续监听会议。但苹果绝不会允许一个应用在后台二十四小时运行,像间谍录音笔一样。
而且,硬件并没有真正解决 Agent 的核心问题:如何调用第三方应用。所以,硬件只是解决了一个问题:获取用户设备之外的额外上下文。在我看来,这远不如通过做浏览器来获取上下文有用。而且,浏览器是一种更安全、更用户友好的获取上下文的方式,而不是那种有点毛骨悚然的、监听你一言一行的做法。
我唯一的疑问是,为什么这些功能不能只是 iPhone 上的应用呢?记者可以用应用录制采访并转录,以前的录音笔基本上被 iPhone 淘汰了。所以,目前更大的挑战是做好移动浏览器,搞清楚所有客户端、服务器混合架构、隐私安全等问题。把这个软件做好才是关键。如果移动浏览器被我们攻克了,那么梦想做一款以浏览器为核心的手机,才是有意义的。
05 稳健前行:Comet背后的基础设施与商业模式考量
Comet 采用等待名单制,并非完全因为成本,更主要的原因是需要重建基础设施以原生支持 Agent 的复杂交互,并建立一套全新的评测体系。Aravind 强调要稳扎稳打,避免因对用量预估不足而损害用户体验,并精心设计与 Agent 功能相匹配的付费方案。他坚信订阅模式的巨大潜力,甚至认为未来会出现每月200美元乃至2000美元的AI服务市场。
说到商业模式,等待名单上有一百万人,是因为这些功能非常消耗 token,成本很高吗?
不全是。成本是原因之一,但主要原因其实是,我们需要重写大量的基础设施来原生支持 Agent。这涉及到大量的客户端和服务器通信,需要非常稳定的基础设施、从故障中恢复任务的能力、以及一套全新的 Agent评测体系。
另外,我们需要根据用户使用 Agent 的频率来预测成本,然后设计出合适的付费升级方案。很多人在这方面犯过错,比如 Cursor 和 Claude,他们对用量过于乐观,结果用户用得比他们想的多得多,只好降级服务,导致用户非常恼火。我们想避免所有这些失误。所以我认为,慢一点、稳一点会更好。
拥有一个真正的 AI 研究者背景对你有多大帮助?
绝对有很大帮助。不只是我,我的联合创始人们也都有深厚的技术背景。我在博士期间培养了系统性思考和解决问题的能力。虽然我已经不像以前那样紧跟模型最新进展的细节,但我对问题出在哪里有很好的判断力。基本上就是当自己公司的客服代表,但带着工程师的思维,这能让你对当前的局限性有很好的感觉。
另一件对我帮助很大的事,就是我自己就是个用户。我妻子形容我是个“沮丧的专业用户”(frustrated pro user)。她会说,如果用户经常遇到 bug,谁会为你的产品付费?这是非常公平的反馈。你只有通过每天修一千个 bug,才能在竞争中领先。当人们问“Perplexity 为什么能做到,谷歌为什么做不到?”因为有成千上万个新的 bug,这是一个为未来构建的不同技术栈。
我们还没谈到商业模式,你觉得广告怎么样?还是说你觉得这个模式会被其他形式取代?
现在下结论还为时过早。但有一点我想说的是,永远不要低估订阅市场。OpenAI 证明了,可以建立起百亿美元的收入,很大一部分来自付费订阅。人们以前觉得,有多少人有钱每个月付二十美元?我甚至想说,我们还低估了每月二百美元这个档次。未来会有数百万人为此付费。
当 AI 使用的漏斗顶端扩大到数亿人,然后有数千万人每月付二十美元,有几百万人每月付二百美元,有几十万人每月付二千美元,你就能赚大钱,一个广告都没有。它能否在没有任何广告的情况下,成为一个年收入千亿美元的公司?有待观察。但这里面还有其他变现形式,比如商家付钱给 Agent,让它为自己带来生意,就像 Booking.com 或 OpenTable 一样。
06 领导力与洞察:从AI研究者到商业战略家
Aravind 分享了他对商业和领导力的热情来源,认为商业本质上是“有约束的优化”和问题解决。他深入研究谷歌的成功经验,并将其产品理念应用到 Perplexity。在谈到竞争时,他认为谷歌CEO Sundar Pichai 做得很好,正带领谷歌向多元化业务转型,以应对搜索利润率下降的必然趋势。
你觉得谷歌怎么样?他们现在的处境很艰难,对吧?
我觉得 Sundar Pichai 做得非常好。如果我在他的位置上,我也不知道该怎么做。他把云业务发展起来是正确的做法。谷歌云、YouTube 和订阅业务加起来,对他们来说已经是一个非常庞大的业务了。
话虽如此,这些业务的利润率不像搜索广告那么高。他们必须承认,需要经历几年的阵痛才能变得更强大。如果他们能挺过来,就会像现在的微软一样,拥有一个多元化的业务组合。但搜索的利润率会持续下降,这是毫无疑问的。因为 Agent 搜索最终必须忠于用户才能赢,而不是去取悦广告商。我认为这就是他们的策略,很清晰。
很有趣。很多人不了解你的一面是,你不仅有 AI 研究背景,你对商业、对运营公司也充满热情。这种热情是从哪里来的?
我记得 Ilya Sutskever 发过一条推文,说管理人员就是用自然语言进行分布式编程。说到底,商业归根结底还是解决问题。作为一个创业公司,我们有极大的限制。这最终就是“有约束的优化”和“有约束的问题解决”,这并不是研究领域独有的技能。
但你对此有真正的热情。
是后天获得的。谷歌是其中一个重要原因。我深入研究了这家公司,他们有一种我非常喜欢的产品品味。比如,为了让 Gmail 加载飞快,他们在你输入邮箱地址时就开始预先拉取邮件。这种理念来自于真正想要取悦用户,在用户开口之前就把东西给他们。我们也尝试把这种理念应用到我们做的一些小事情上。
07 品牌与分发:在巨头林立的市场中找到自己的路
Aravind 揭秘了 Perplexity 与《鱿鱼游戏》男主角合作的广告背后的故事,强调了触达大众市场时保持信息简单的原则。他还分享了自己对社交媒体的看法,并指出,在与谷歌的竞争中,不能玩他们的老游戏。Perplexity 的破局之道在于通过 Comet 浏览器这条新路来获取分发渠道,这与当年 Sundar Pichai 推广 Google Toolbar 的策略异曲同工。
你们也做了一些品牌广告,我看到了一些电视广告。
是的,那很大程度上受了苹果的启发。李政宰那个广告效果非常好。我们制作成本非常低,但获得了几千万的观看量。我们决定要玩一个梗,就是回应 AI Overview 那个“在披萨上加胶水”的搞笑错误。我们给出正确答案,但也会说一句“嘿,不要用胶水”。
我还得感谢 Mr. Beast,我向他征求了意见。他说,你真的要明白,互联网上的智商水平没那么高。所以如果你想触及大众,你必须做得极其简单。比如,Perplexity对比谷歌,链接对比答案,非常清晰的差异化。然后是极其简单的日常问题,比如“我衬衫上有污渍怎么办?”我觉得这就是它成功的原因。
有趣,因为你在推特上也玩得很好。
那只是算法会奖励你那么做。我记得 Marc Andreessen 告诉过我,在推特上,你应该发那种百分之五十正确、百分之五十错误的推文,这样参与度最高。当然,要找出那种恰好一半对一半错的陈述真的很难。
有传言说 Meta 接洽过你们,是真的吗?
我不能评论。但事实是,我们现在对任何并购都不感兴趣。Comet 发布之后,人们清楚地理解了我们要去哪里,为什么这很重要。而且,推广 Comet 的分发,是一个完全不同、也更容易玩的游戏。
这有点像谷歌在做 Chrome 之前,先做了 Google Toolbar。他们通过付费给桌面软件公司,在用户安装软件时捆绑安装 Toolbar,从而获得了巨大的查询量增长。负责那个项目的人就是 Sundar。人们不理解分发有多重要。你不能在老游戏里赢谷歌,因为他们每个查询能产生的收入比你高得多。你必须找到自己的路。对我们来说,Agent、Comet 和浏览器就是我们要走的路。
Ilya 曾说,同时在 AI 和产品上发力,只有自动驾驶汽车和搜索两条路。你觉得现在还成立吗?
我觉得还是一样的。但可能出现了第三个类别,就是搜索和自动驾驶的结合,也就是浏览器上的 Agent。浏览器感觉就像一辆车,Agent 感觉就像 Autopilot 或者 FSD(完全自动驾驶)。你把为多步搜索开发的所有技术,用来做多步操作,然后是任何形式的数字劳动力。这不是为了取代人,而是为了增强他们,成为他们的“自动驾驶仪”,给他们省下更多时间。
这次聊得很好。非常感谢。
和你聊天非常愉快,我一直很享受和你聊策略。我觉得你是一个非常有好奇心的人,这也是我们喜欢的那种用户。
