AI 硬件都是伪需求?Perplexity CEO:真正的革命不在新设备,而在你每天都在用的浏览器里




src="https://api.eyabc.cn/api/picture/scenery/?k=90707359&u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FppoTzQq3lPhiaC0vicRnic3Cibx3XicBhrduojBFtUrYN3dNg1tyPlNFN0icAKNDYZPOAfc67IibJY8Ofc0YXgxr7YyGg%2F0%3Fwx_fmt%3Djpeg">

Perplexity CEO Aravind Srinivas:从AI搜索引擎到操作系统,Comet的宏大愿景

核心要点

  • 01

    Perplexity推出名为Comet的智能体浏览器,其终极愿景是演化为一种能自动化处理重复性任务的AI操作系统。

  • 02

    AI Agent成功的关键在于“智能”与“上下文”的结合,而浏览器作为用户工作与生活的核心界面,是获取上下文的终极形态。

  • 03

    Perplexity采取“颠覆者”策略,在产品尚不完美时即推向市场,旨在开创“智能体浏览器”新品类,并坚信订阅模式足以支撑起千亿美元级的业务。

背景

本期节目是 Semafor 科技编辑 Reed Albergotti 对 AI 搜索引擎公司 Perplexity 的联合创始人兼 CEO Aravind Srinivas 的深度访谈。访谈围绕 Perplexity 的最新产品——智能体浏览器 Comet 展开,深入探讨了其作为 AI 操作系统的宏大愿景。对话内容涵盖了 Comet 如何通过理解上下文、连接各类应用来自动化处理生活与工作中的任务,Perplexity 在与谷歌OpenAI等巨头的竞争中的定位,以及 Aravind 对于AI 产品、商业模式和未来硬件形态的独到见解。

01 Comet的诞生:AI操作系统的宏大愿景

访谈从主持人试用 Comet 的惊艳体验开始,引出其核心定位——一个未来的AI操作系统。Aravind阐释了何为AI操作系统:它能处理流程性、重复性的异步任务,具备状态管理、后台进程和依赖处理能力,使浏览器本身成为电脑中的“迷你电脑”。

Reed Albergotti

大家好,我是 Reed Albergotti,Semafor 的科技编辑。我做科技报道已经超过十年了,感觉一天里大部分时间不是在打电话,就是在开视频会议,疫情之后尤其如此。很多访谈是为了写文章,最后大量内容都被剪辑掉了。于是我就想,干脆把我本来就要做的采访,录成视频发到 YouTube 上。今天大家将看到的,就是我和 Perplexity 的联合创始人兼 CEO Aravind Srinivas 的访谈。

Perplexity 是一家做 AI 搜索引擎的公司。他们最近有个非常宏大的想法,推出了一个叫 Comet 的浏览器,但他们相信,这东西未来可能会成为一种 AI 操作系统。我自己也试用了一下,感觉是个非常强大的工具,能让你一窥 AI 未来的发展方向,看到当 AI 真正开始在我们生活中变得实用时会是什么样子。这次对话里有不少真知灼见,希望大家喜欢。我过去几周休假的时候,就一直在试用 Comet。

Aravind Srinivas

你觉得怎么样?

Reed Albergotti

我觉得它能做到的事情太惊人了。我还在推特上分享过,我可以直接让它的“边车”(sidecar)帮我改签美联航的机票。这类体验确实让人窥见到未来的一角。你们的愿景就是将它打造成一个AI操作系统,对吗?

Aravind Srinivas

是的。如果我们能处理那些流程性的、重复性的、异步的任务——也就是那些不需要实时运行和更新的任务——那它就开始有操作系统的感觉了。因为操作系统的根本特性,就是要有状态(state)、有后台进程(background processes),还得知道任务跑到哪一步了、怎么自动接着跑、怎么保存状态、进程之间别打架、内存管理要清晰,还得处理好依赖关系。

这些都需要在 Agent 层面实现,而且是为自然语言驱动的任务设计的,而不是那种写死的系统。这样一来,你的浏览器本身就会感觉像是你电脑里的一个“迷你电脑”。

02 AI Agent的核心:智能与上下文的双轴模型

Aravind 提出了一个理解 AI Agent 发展的双轴模型:“智能”轴代表模型本身能力的提升,“上下文”轴则代表AI获取和利用个性化信息的能力。他强调,浏览器是最终极的上下文载体,因为它触及用户工作和生活的方方面面。将强大的智能与丰富的上下文无缝融合,是破解 Agent 难题的关键。

Aravind Srinivas

一旦你的浏览器能连接到电脑上的其他应用,它就感觉像是主应用,其他应用都成了外设。当然,我们并非想让用户只用 Comet。你想自己打开 iMessage 发短信完全没问题。但关键在于,如果你需要,Comet 也能接入 iMessage。

比如,我可能在 iMessage 上跟你沟通,但同时我们还有一个邮件组在讨论播客录制的事。你在短信里发的笔记,我的邮箱是不知道的。所以,如果我在会前跟 AI 说“帮我准备一下跟 Reed 的会”,它可能会从日历和邮件里调取信息,但找不到你在短信里的内容。你不能反过来怪用户“为什么不一直用 Gmail?”。用户想用什么就用什么。AI 必须自己搞定一切,把所有必要的上下文(context)都整合起来。

这其实就是许多人所说的“上下文工程”(context engineering),它至关重要。我们可以用两个坐标轴来理解:一个轴是“智能”,另一个轴是“上下文和个性化”。横轴上,模型越来越强,从 GPT-3.5 到 4、4.5、5,能力从高中生到博士,再到能有新发明。而在纵轴上,是从帮你起草邮件,到能调用个人信息办事,再到自动处理长周期重复任务,甚至在你不想参加的会议里当你的“替身”。

我们就是在纵轴上不断前进。在我看来,上下文领域的“GPT-5”或“GPT-6”,基本上就是浏览器。因为它能接触到我们做的每一件事,是我们工作和生活都在用的产品。你可以做一些像“记忆”功能那样写死的东西,但浏览器才是最终极的上下文。所以,如果我们能把智能和上下文这两方面都做好,让体验非常自然、无缝融合,用户界面又很熟悉,那我们就破解了 Agent 和个性化的难题。

Reed Albergotti

你说控制电脑上的其他应用,但现在很多东西都是基于网页的。比如我让它帮我报销,我希望它能看看我的信用卡账单,再看看我的日历,然后把这些信息关联起来。很明显,它现在还做不到。

Aravind Srinivas

是的,现在还做不到。

Reed Albergotti

但这就是你们的方向。不过,这到底是模型的问题,还是你们围绕模型构建的那些东西的问题?

Aravind Srinivas

两者都有。模型本身存在局限性。我觉得我们现在能用浏览器完成哪些任务,确实受限于当前模型的能力。但这感觉和我们刚见面那会儿很像,当时 Perplexity 跑的还是 GPT-3.5,多数人都觉得产品挺有意思了。但现在回头看,跟今天的产品比,那时的幻觉可太多了。

所以,我会说,Comet 今天的 Agent 能力,就好比是 2023 年初、GPT-4 问世之前,Perplexity 作为答案引擎的能力。

03 颠覆者之路:在不完美中开创“智能体浏览器”新品类

Aravind 承认 Comet 目前尚不完美,但这正是创业公司的优势,即“创新者的窘境”中的颠覆者角色。他认为,不能等模型完美了再行动,必须基于“模型终将变得强大且廉价”的假设来构建产品。Perplexity 的目标不是在旧赛道上与 Chrome 竞争,而是要开创一个全新的“智能体浏览器”生态系统。

Aravind Srinivas

未来肯定会出现比 Claude 3 Opus 更强、长文本能力更好、指令遵循和工具调用更可靠、同时价格也更便宜的模型。这一定会发生。到那时,Comet 就会变得扩展性更强、更便宜、也更可靠。但我们不能等到那一天才开始做 Comet。在 AI 领域,你必须假设模型终将变得强大且廉价,并基于这个假设来定位你的产品、技术和当前的技术栈。

Reed Albergotti

这也算是你们作为颠覆者的优势吧?你们的竞争对手显然是谷歌,OpenAI 也在做竞争产品。但你们的态度是,我们愿意先推出一个还不算完美的产品。作为一个创业公司,你们有这个资本,这有点像是“创新者的窘境”里你们扮演的角色。

Aravind Srinivas

没错。不过说到“还不算完美”,我认为它对很多人来说已经相当有用了。而且,自从发布以来,用户使用 Agent 查询的比例,以及把 Comet 设为默认浏览器的用户比例,其实一直在增加。这说明它已经是一款足够成熟的产品,可以从 Chrome、Edge 等浏览器那里抢占市场份额了。

但我们的目的更多是创造一个全新的生态系统,一个“智能体浏览器”(Agentic browser)的新品类,而不是在旧的赛道里竞争,因为我们认为旧的市场反正也要消失了。当你作为一个先行者,自然会走在最前沿,也难免会有些粗糙的地方。

而且从等待名单的人数来看——已经快到一百万了——有大量用户都非常有兴趣尝试,并且愿意忍受它的不完美。这足以说明它在人们眼中是多么有价值。我预计,随着更多大公司进入这个新市场,这个趋势只会加强。人们会慢慢开始通过浏览器这个平台,自动化一部分工作和生活。浏览器的意义也将对每个人变得不同。它不再只是一个消费互联网内容的前端工具,而会开始让你感觉:“这就是我的操作系统”。

Reed Albergotti

它确实很有用。这感觉很像互联网早期,人们习惯输入一长串网址,后来才意识到直接在搜索框里输入关键词才是正确的方式。我觉得我们现在对 AI 的使用也处在类似的阶段。就连我自己,在电脑上做很多事的时候,一边做一边会想,这太傻了,我应该用 AI 来做,但我就是习惯了。

Aravind Srinivas

是的,我也一样。你用传统方式做事有两个原因:一是习惯,二是熟练。比如我找邮件就特别快,记性很好。但我觉得,这种技能在未来会失传,没人会需要了。就像你不再需要很会心算两三位数乘法一样。

我们对于现在的 AI 时代来说,就像是“婴儿潮”那一代(boomers)。我们重塑自己的方式,就是去学习这些新技能和新的做事方法。我自己也有这个问题。有时候我还是会凭肌肉记忆去 YouTube 视频里找一段内容,打开文字稿用 Command+F 搜索,结果找不到。其实我完全可以直接问 Comet:“带我到这个视频里 Reed 讲 Perplexity 的那部分。”它很快就能带我过去。

从 Comet 中我得到的另一个重要感悟是:我们不必等待每个网站都为自己开发出好用的 AI。我们只需要这一个通用的 Agent,像个“边车”一样一直陪着你。无论你在哪个网站上,都可以让 Comet 帮你。这种感觉很特别,就像一个通用的 AI,实现了每个人都曾有过的那个梦想:一个助手,无处不在地帮助你。这不仅仅是模型变强的问题,更是要把 AI 打包进一个合适的环境里,让 AI 和你这个人类用户在同一个环境里无缝集成。

04 硬件的未来:为什么浏览器比新设备更关键?

Aravind 讨论了在移动端实现 Comet 的挑战,特别是苹果 iOS 的 WebKit 限制和后台进程限制。他进而阐述了自己对AI硬件的看法,认为当前阶段,开发一款功能强大的移动浏览器,比创造新的硬件形态(如AI Pin或吊坠)更为重要和有效。浏览器能以一种更安全、用户友好的方式获取上下文,而无需“毛骨悚然”地持续监听用户。

Reed Albergotti

这感觉就像需要一个产品,专门为我们这些“婴儿潮”式用户服务。这个 AI 会观察你怎么用电脑,然后给你推荐工作流,告诉你如何节省时间。

Aravind Srinivas

对,这正是我们理想中应该达到的状态。但这里有个难点,就是不能让用户觉得“这 AI 就是想让我多用它,好让我掏钱”。主动式AI(proactive AI)一直没能火起来的原因就在这里。当 AI 主动介入时,用户对垃圾信息的容忍度非常低。它必须在你主动介入时,真正带来“魔法般”的体验。

Reed Albergotti

另外还有一个问题,就是信任。我发现 Comet 不会索要我的密码之类的东西,对吧?

Aravind Srinivas

它不需要知道。这正是浏览器架构的魔力所在。只要你导入了 cookie,访问网站就默认是登录状态。AI 只是像你一样消费网站的登录后版本,但它不能替你登录或接管你的账户。这就是浏览器架构相比于其他 Agent 模式最大的优势,从安全角度看,这未必是好事。

Reed Albergotti

说到苹果,Comet 是基于 Chromium 的,但在 iOS 上只能用 WebKit 引擎。你们有办法让它在移动端运行吗?

Aravind Srinivas

从设计上讲,所有 iOS 上的浏览器都必须用 Safari 的WebKit渲染引擎。此外还有些限制,比如应用在后台时,后台进程不能在客户端长时间运行。这就带来了架构上的挑战。解决方案要么是在云端为你运行一个虚拟浏览器,要么就需要苹果在政策上更灵活一些。

Reed Albergotti

这些围绕移动生态系统的问题,在多大程度上是你们想做硬件的原因?

Aravind Srinivas

我对硬件感兴趣,不只是因为苹果的限制。但我认为,如果你真想做硬件,就得做手机。其他形态的硬件,比如AI吊坠,其核心价值在于获取手机之外的上下文,比如通过持续监听会议。但苹果绝不会允许一个应用在后台二十四小时运行,像间谍录音笔一样。

而且,硬件并没有真正解决 Agent 的核心问题:如何调用第三方应用。所以,硬件只是解决了一个问题:获取用户设备之外的额外上下文。在我看来,这远不如通过做浏览器来获取上下文有用。而且,浏览器是一种更安全、更用户友好的获取上下文的方式,而不是那种有点毛骨悚然的、监听你一言一行的做法。

我唯一的疑问是,为什么这些功能不能只是 iPhone 上的应用呢?记者可以用应用录制采访并转录,以前的录音笔基本上被 iPhone 淘汰了。所以,目前更大的挑战是做好移动浏览器,搞清楚所有客户端、服务器混合架构、隐私安全等问题。把这个软件做好才是关键。如果移动浏览器被我们攻克了,那么梦想做一款以浏览器为核心的手机,才是有意义的。

05 稳健前行:Comet背后的基础设施与商业模式考量

Comet 采用等待名单制,并非完全因为成本,更主要的原因是需要重建基础设施以原生支持 Agent 的复杂交互,并建立一套全新的评测体系。Aravind 强调要稳扎稳打,避免因对用量预估不足而损害用户体验,并精心设计与 Agent 功能相匹配的付费方案。他坚信订阅模式的巨大潜力,甚至认为未来会出现每月200美元乃至2000美元的AI服务市场。

Reed Albergotti

说到商业模式,等待名单上有一百万人,是因为这些功能非常消耗 token,成本很高吗?

Aravind Srinivas

不全是。成本是原因之一,但主要原因其实是,我们需要重写大量的基础设施来原生支持 Agent。这涉及到大量的客户端和服务器通信,需要非常稳定的基础设施、从故障中恢复任务的能力、以及一套全新的 Agent评测体系

另外,我们需要根据用户使用 Agent 的频率来预测成本,然后设计出合适的付费升级方案。很多人在这方面犯过错,比如 Cursor 和 Claude,他们对用量过于乐观,结果用户用得比他们想的多得多,只好降级服务,导致用户非常恼火。我们想避免所有这些失误。所以我认为,慢一点、稳一点会更好。

Reed Albergotti

拥有一个真正的 AI 研究者背景对你有多大帮助?

Aravind Srinivas

绝对有很大帮助。不只是我,我的联合创始人们也都有深厚的技术背景。我在博士期间培养了系统性思考和解决问题的能力。虽然我已经不像以前那样紧跟模型最新进展的细节,但我对问题出在哪里有很好的判断力。基本上就是当自己公司的客服代表,但带着工程师的思维,这能让你对当前的局限性有很好的感觉。

另一件对我帮助很大的事,就是我自己就是个用户。我妻子形容我是个“沮丧的专业用户”(frustrated pro user)。她会说,如果用户经常遇到 bug,谁会为你的产品付费?这是非常公平的反馈。你只有通过每天修一千个 bug,才能在竞争中领先。当人们问“Perplexity 为什么能做到,谷歌为什么做不到?”因为有成千上万个新的 bug,这是一个为未来构建的不同技术栈。

Reed Albergotti

我们还没谈到商业模式,你觉得广告怎么样?还是说你觉得这个模式会被其他形式取代?

Aravind Srinivas

现在下结论还为时过早。但有一点我想说的是,永远不要低估订阅市场。OpenAI 证明了,可以建立起百亿美元的收入,很大一部分来自付费订阅。人们以前觉得,有多少人有钱每个月付二十美元?我甚至想说,我们还低估了每月二百美元这个档次。未来会有数百万人为此付费。

当 AI 使用的漏斗顶端扩大到数亿人,然后有数千万人每月付二十美元,有几百万人每月付二百美元,有几十万人每月付二千美元,你就能赚大钱,一个广告都没有。它能否在没有任何广告的情况下,成为一个年收入千亿美元的公司?有待观察。但这里面还有其他变现形式,比如商家付钱给 Agent,让它为自己带来生意,就像 Booking.com 或 OpenTable 一样。

06 领导力与洞察:从AI研究者到商业战略家

Aravind 分享了他对商业和领导力的热情来源,认为商业本质上是“有约束的优化”和问题解决。他深入研究谷歌的成功经验,并将其产品理念应用到 Perplexity。在谈到竞争时,他认为谷歌CEO Sundar Pichai 做得很好,正带领谷歌向多元化业务转型,以应对搜索利润率下降的必然趋势。

Reed Albergotti

你觉得谷歌怎么样?他们现在的处境很艰难,对吧?

Aravind Srinivas

我觉得 Sundar Pichai 做得非常好。如果我在他的位置上,我也不知道该怎么做。他把云业务发展起来是正确的做法。谷歌云、YouTube 和订阅业务加起来,对他们来说已经是一个非常庞大的业务了。

话虽如此,这些业务的利润率不像搜索广告那么高。他们必须承认,需要经历几年的阵痛才能变得更强大。如果他们能挺过来,就会像现在的微软一样,拥有一个多元化的业务组合。但搜索的利润率会持续下降,这是毫无疑问的。因为 Agent 搜索最终必须忠于用户才能赢,而不是去取悦广告商。我认为这就是他们的策略,很清晰。

Reed Albergotti

很有趣。很多人不了解你的一面是,你不仅有 AI 研究背景,你对商业、对运营公司也充满热情。这种热情是从哪里来的?

Aravind Srinivas

我记得 Ilya Sutskever 发过一条推文,说管理人员就是用自然语言进行分布式编程。说到底,商业归根结底还是解决问题。作为一个创业公司,我们有极大的限制。这最终就是“有约束的优化”和“有约束的问题解决”,这并不是研究领域独有的技能。

Reed Albergotti

但你对此有真正的热情。

Aravind Srinivas

是后天获得的。谷歌是其中一个重要原因。我深入研究了这家公司,他们有一种我非常喜欢的产品品味。比如,为了让 Gmail 加载飞快,他们在你输入邮箱地址时就开始预先拉取邮件。这种理念来自于真正想要取悦用户,在用户开口之前就把东西给他们。我们也尝试把这种理念应用到我们做的一些小事情上。

07 品牌与分发:在巨头林立的市场中找到自己的路

Aravind 揭秘了 Perplexity 与《鱿鱼游戏》男主角合作的广告背后的故事,强调了触达大众市场时保持信息简单的原则。他还分享了自己对社交媒体的看法,并指出,在与谷歌的竞争中,不能玩他们的老游戏。Perplexity 的破局之道在于通过 Comet 浏览器这条新路来获取分发渠道,这与当年 Sundar Pichai 推广 Google Toolbar 的策略异曲同工。

Reed Albergotti

你们也做了一些品牌广告,我看到了一些电视广告。

Aravind Srinivas

是的,那很大程度上受了苹果的启发。李政宰那个广告效果非常好。我们制作成本非常低,但获得了几千万的观看量。我们决定要玩一个梗,就是回应 AI Overview 那个“在披萨上加胶水”的搞笑错误。我们给出正确答案,但也会说一句“嘿,不要用胶水”。

我还得感谢 Mr. Beast,我向他征求了意见。他说,你真的要明白,互联网上的智商水平没那么高。所以如果你想触及大众,你必须做得极其简单。比如,Perplexity对比谷歌,链接对比答案,非常清晰的差异化。然后是极其简单的日常问题,比如“我衬衫上有污渍怎么办?”我觉得这就是它成功的原因。

Reed Albergotti

有趣,因为你在推特上也玩得很好。

Aravind Srinivas

那只是算法会奖励你那么做。我记得 Marc Andreessen 告诉过我,在推特上,你应该发那种百分之五十正确、百分之五十错误的推文,这样参与度最高。当然,要找出那种恰好一半对一半错的陈述真的很难。

Reed Albergotti

有传言说 Meta 接洽过你们,是真的吗?

Aravind Srinivas

我不能评论。但事实是,我们现在对任何并购都不感兴趣。Comet 发布之后,人们清楚地理解了我们要去哪里,为什么这很重要。而且,推广 Comet 的分发,是一个完全不同、也更容易玩的游戏。

这有点像谷歌在做 Chrome 之前,先做了 Google Toolbar。他们通过付费给桌面软件公司,在用户安装软件时捆绑安装 Toolbar,从而获得了巨大的查询量增长。负责那个项目的人就是 Sundar。人们不理解分发有多重要。你不能在老游戏里赢谷歌,因为他们每个查询能产生的收入比你高得多。你必须找到自己的路。对我们来说,Agent、Comet 和浏览器就是我们要走的路。

Reed Albergotti

Ilya 曾说,同时在 AI 和产品上发力,只有自动驾驶汽车和搜索两条路。你觉得现在还成立吗?

Aravind Srinivas

我觉得还是一样的。但可能出现了第三个类别,就是搜索和自动驾驶的结合,也就是浏览器上的 Agent。浏览器感觉就像一辆车,Agent 感觉就像 Autopilot 或者 FSD(完全自动驾驶)。你把为多步搜索开发的所有技术,用来做多步操作,然后是任何形式的数字劳动力。这不是为了取代人,而是为了增强他们,成为他们的“自动驾驶仪”,给他们省下更多时间。

Reed Albergotti

这次聊得很好。非常感谢。

Aravind Srinivas

和你聊天非常愉快,我一直很享受和你聊策略。我觉得你是一个非常有好奇心的人,这也是我们喜欢的那种用户。


AI 前线

「OK Computer」,Kimi Agent 模式开启内测

2025-12-23 15:17:40

AI 前线

在 GitHub Actions 中利用 GitHub 模型实现项目自动化

2025-12-23 15:17:47

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索