喝点 VC｜a16z 圆桌：每一次平台迁移，改变的不仅是应用，更是人与计算交互的抽象层次

本文编译自 a16z 的一场专家圆桌讨论，深入探讨了 AI Agent 的本质、发展趋势及其对工作流和商业模式的深远影响。与会专家（Aaron Levie， Steven Sinofsky， Martin Casado）认为，Agent 的真正价值在于深度赋能人类，而非简单替代，尤其能大幅提升专家群体的生产力。他们强调，AI Agent 的发展趋势是任务的细分化和多 Agent 协作，这与传统的单体 AGI 叙事相反。文章指出，每一次平台迁移，改变的不仅是应用，更是人与计算交互的抽象层次，AI Agent 正在颠覆传统工作流，从人类适应 Agent 的使用方式，到工作本身因 Agent 能力而重塑。此外，讨论还聚焦于 AI Agent 带来的巨大商业机会，认为垂直领域的 Agent 公司将大量涌现，模型厂商难以垄断所有应用层市场。文章也理性探讨了递归自我改进的复杂性、AI 预测的徒劳性，以及人类审查和清晰上下文在 AI 应用中的关键作用。

图片来源：a16z

Z Highlights

“专家正在成为AI的最大受益者，他们的生产力提升远超其他群体。”

“我们正在看到提示词变得越来越复杂，Agent越来越多，任务越来越细分——这与AGI的宏大叙事恰恰相反。”

“每一次平台迁移，改变的不仅是应用，更是人与计算交互的抽象层次。”

Aaron Levie，Box联合创始人兼CEO，长期关注企业级技术与AI融合；Steven Sinofsky，前微软Windows部门总裁，现为知名科技评论人与投资者，深度参与多轮平台变革。本次访谈由a16z合作伙伴Erik Torenberg和Martin Casado于2025年8月25日发起，围绕Agent的发展现状、技术挑战与未来影响展开深度讨论。

Agents的本质之争：从Linux符号到自主执行者

Erik Torenberg：我想用一个非常简单但又很有挑衅性的问题来开启这个范围很广的播客：什么是Agent？

Aaron Levie：这个问题要问谁？Steven。

Steven Sinofsky：天哪。我其实对Agent有一个非常老派的看法，它就是Linux里的“&”，就是后台进程。比如你在O3里输入一个指令，它会告诉你“我正在尝试”，然后“等等，我需要一个密码，我做不到”。这就像世界上最糟糕的助手。归根结底，它只是为了在长时间计算时给你找点乐子。所以我对Agent的传统看法就是这样：雇了一堆很糟糕的实习生。

Aaron Levie：实习生会变得更好，他们确实在进步。

Steven Sinofsky：是的，但他们仍然记不住我是不是有某个网站的密码。

Aaron Levie：有可能你们在八九十年代就碰到过糟糕的实习生？

Steven Sinofsky：没错，特别糟糕。

Aaron Levie：我对实习生的评价还是很高的。

Steven Sinofsky：说真的，我给出一个更正式的回答。

Aaron Levie：在过去两年，尤其是在ChatGPT之后，我们一度认为AI的形态就是对话。但结合Steven的观点来看，AI的真正终极形态，也就是AI Agent，是那些能够在后台自主替你执行真实工作的系统。在理想情况下，你和它的交互频率应该相对很低，而它创造的价值却很高。换句话说，它在不需要你干预的情况下完成的工作越多，它的Agent特性就越强。这正是我们目前看到的发展范式。

Martin Casado：我想补充一点，除了长时间运行之外，我同意这一点，更关键的是它会将自己的输出再次作为输入进行处理。理论上你可以做一个长时间推理的任务，比如生成一个很长的视频，这只是单次计算，你只是投入更多的Compute Use。但如果它开始把输出回灌为输入，就会出现技术难题，因为我们还不确定如何有效约束它。你当然可以用运行时长来衡量，但另一个指标是它是否真正采纳了自己的指导，这更能体现Agent特性。

Steven Sinofsky：在这个转变过程中，有一个很重要的点。正如Aaron描述的，我们最终确实会走向那个方向。但更有趣的是中间的过渡阶段。至少在目前，我们还是需要它时不时停下来问一句：“我走在正确的方向上吗？”因为除了那些恐怖的场景，比如它未经同意就采取行动、使用账户或数据之外，还有一个现实的问题：没人希望它耗费大量时间却跑偏了。

Martin Casado：所以问题是，它们到底在多大程度上具备自主性？在我看来，这意味着它们能够生成一个结果，再将其反馈给自己，并且仍然保持合理。但这其实是一个分布上的难题，因为它无法保证自己吐出来的东西在再次读入时依旧在分布之内。它们缺乏这种自我反思能力。所以核心的技术问题在于：我们能在多大程度上让这些系统具备独立的Agent能力。而如果只是让它们长时间运行，这倒是相对容易做到的。

Steven Sinofsky：长时间运行这一点我们已经做得不错。

Martin Casado：没错，长时间运行不成问题。

Steven Sinofsky：关键是它返回的结果。

递归自改进迷思与实用主义转向

Aaron Levie：有趣的一点是整个生态系统正在尝试解决或缓解一些问题，比如现在我们看到的是Agent的逻辑分工。它们可能是长时间运行的，但不会尝试做所有事情。任务被细分得越多，它们在单一任务上的进展就可能越深，而不至于完全迷失方向。

Steven Sinofsky：Unix的思想最终会被证明是正确的，也就是把任务拆解成更小的单元和工具。正如你在X上提到过的，人们会希望把事情分解成不同的专长。可能是不同的一段代码，你去问它“你在这个方面是否擅长”，然后得到关于某一部分问题的答案。

Aaron Levie：这很有意思。在过去六个月里，关于AGI的讨论发生了明显变化。两年前的主流看法是AGI会是一个单体的、超级智能的系统，能解决所有问题。但放到今天来看，至少在现有的架构下，这种模式可能行不通。所以更可能的情况是由许多Agent组成的系统，每个Agent在特定任务集上成为深度专家，然后需要通过某种方式对这些Agent进行编排。这样就会出现两类问题：一类是如何让单个Agent深入，另一类是如何进行高效的编排。这也许就是长期来看解决这些问题的方式。

Martin Casado：要把这个问题想清楚很难。我至今没看到过一个系统，它的表现很好，但其中完全没有人类参与。通常所谓的普世部分其实往往来自人类。所以目前来看，这些系统极大提升了人类的生产力。也许未来有一天它们能独立提升生产力，但在此之前，我很难把它们当成纯粹独立的存在来讨论。

Steven Sinofsky：人们必须摆脱把AI拟人化的思维方式，因为这正是阻碍发展的原因。AGI常常被幻想成机器人，进而引发各种关于就业消失的讨论，但这些并没有实际帮助。真正的情况是，它确实非常擅长写案例研究，甚至写得比大多数员工都好。但它不知道该写关于谁的案例研究，不知道你想强调的重点，不知道预算是多少，需要多少人力。

Martin Casado：而且AGI这个词本身承载了过多的意义。比如有人问我：“如果出现AGI，你还会投资软件公司吗？”我的回答是会的。因为AGI这个词本身并不意味着经济均衡或经济可行性。它既承载了人们所有的担忧，也承载了所有的希望。只有当我们把AGI的定义限制到“它解决某类问题，并且经济上可行与否”时，讨论才会更有意义。现在的讨论比一年前已经理性得多。

Erik Torenberg：当你听到比如《AI 2027》这样的论文里谈到自动化研究、递归自我改进时，你觉得那更像是虚构还是幻想？还是说即便在这些情况下，我们依然远未到达“Peak Software”，市场仍然会有无限的需求？

Aaron Levie：我觉得你得先回答每个问题。

Steven Sinofsky：是的。

Martin Casado：需要的。

Aaron Levie：你先帮我们锚定现实，然后我们再讨论偏离现实的部分。

Steven Sinofsky：我现在完全不认同用年份来预测。无论你说的是2027还是其他年份，最终都会变成争论“我们当初说的指标是什么意思”，这就像给整个行业设OKR一样，非常荒谬。我更倾向于认为所有事物大概都需要十年时间，但问题是你根本无法预测十年后的事情。唯一确定的是我们正处于一条指数曲线上，所以没人能真正预测未来，它也不会停滞，更不会突然结束。这就是为什么它和以往的平台转变不同。只要看看过去在存储、带宽、计算生产力、全球连接性上的进展，就能发现指数曲线的力量是无法预测的。坐在那里做预测是徒劳的。

你当然可以写科幻小说，说未来每个人都会有自己的AI助手，那没问题。但如果你说这是2029年一定会实现的，那就毫无意义了。

Aaron Levie：完全同意。因为三年前，你根本无法想象今天会有像Cloud Code、Cursor，或者后台Agent写代码这样的东西。所以去预测某个年份毫无意义。在过去两年里，我们在应用AI方面看到的进展远超预期，即便其中有些预测没实现又有什么关系？所以更有意义的还是从类似摩尔定律的角度来思考，比如我们有多少Compute、多少数据、模型的能力多强。

Steven Sinofsky：让我举个例子。在AI寒冬之后，机器翻译和机器视觉失败时，没人认为这些问题会被解决。神经网络在那时几乎彻底崩溃，甚至在课堂上如果你试着教授神经网络，学生都会抗议说浪费时间。1999年，Geoffrey Hinton甚至拿不到神经网络的研究资金。我读研时的一本三卷本《人工智能史》，其中关于神经网络的内容只有八页。

Martin Casado：讽刺的是，我记得当时ML是“新潮”的东西，而后来ML又变成“过时”的，神经网络反而重新成为新潮。

Steven Sinofsky：包括NLP也是一样。很多过去解决不了的问题，未来都可能被解决。比如大家常说AI不懂数学，但数学本身是可解的。只是没人去给模型加上数学层，去理解数字是什么，或者内置一个数学的专家系统。但这其实是成熟的技术，我们早在1975年就有Maxima这样的系统。

Martin Casado：这说明预测难度极大。以递归自我改进为例，这是我最喜欢的讨论点之一。理论上它的图就是一个方框，箭头指回自己，表示自我改进。从直观上看，很多人觉得只要有这个循环就结束了。但如果你懂一些非线性控制理论，你就会知道这是整个科学技术里最难的问题之一：它会收敛吗？会发散吗？会趋近一个极限吗？比如如果递归自我改进只是基于搜索，它可能最终会收敛到一个极限。所以从技术角度看，“递归自我改进”这个词几乎没传达出什么实质意义。但由于人们习惯把AI拟人化，一提到递归自我改进，就好像它一定能突破能量边界，进化成超级智能。

Steven Sinofsky：这就好像它从蹒跚学步的孩子变成了一个八岁小孩，仅仅因为它做了递归自我中心化。

Martin Casado：现实是，非线性控制系统本身就是反馈自适应系统，而我们连相对简单的非线性控制系统的结果都无法用数学完全描述，你必须真正知道输入输出的分布。AI系统会不断改进，也可能会自我改进，但这并不意味着它们能够无限制地自我改进。这是我们理解这些系统过程中必须面对的一个部分。

Martin Casado：好消息是，我们现在的讨论比一年前理性得多，希望这种趋势能继续下去。希望讨论本身也能“递归自我改进”。

Steven Sinofsky：好消息是这种改进涉及人类，所以我们不用担心过度失控。比如在客户那边，你肯定也能感受到，像“幻觉”这样的讨论在过去两年里的变化有多大。

生产力重构：专家主导与工作流颠覆

Aaron Levie：其实可以从两个维度来看。一方面，幻觉问题确实有所改善。随着模型能力提升，以及我们对RAG等方法的理解加深，包括上下文窗口效果的提升，整个技术栈都有进步。另一方面，在企业内部也逐渐形成了一种文化认知，那就是这些系统本质上是非确定性的、概率性的。所以现在几乎形成了一种文化转变：越来越多关键业务场景可以引入AI，因为使用这些系统的员工已经理解了他们必须对结果进行验证。真正的问题在于，验证所花费的时间与自己独立完成相比的效率差异是多少。但与两年半前相比，当时大家一开始极度兴奋，几个月后迅速意识到幻觉是个大问题，而现在几年后，我们已经看到幻觉率在下降，输出质量在提升，并且大家明白需要去审查AI Agent的工作。不同场景的审查方式不同，比如在代码领域，意味着还是要去审查生成的代码。

Steven Sinofsky：但那本来就是你必须做的事。人们似乎忘了这一点。

Aaron Levie：没错，不过至少会形成一种判断：哪些部分需要更仔细地去审查，因为你和AI“合作”的方式会影响重点。

Martin Casado：但这其实隐含地限制了AI的价值，而这让一些人感到不适。它意味着AI只能帮助那些知识储备超过AI的人，否则效果有限。这在某种程度上会切割它的实用性。

Aaron Levie：这意味着专家的生产力正在远远超过其他人。这其实从历史经验也能推测出来。你会看到某些技能、某些类型的用户才是这些模型的理想使用者。比如专家工程师并不在意这像是一个老虎机，他们拉一次看看结果，因为即使输出不完美，他们依然能获得10倍的生产力提升。而对非专家工程师来说，可能会盲目地去部署那些错误的结果。

Martin Casado：而且非专家甚至不知道要拉哪个杠杆。在这里，关键在于你是否知道该问什么、用什么语言去表述，才能得到更好的结果。

Steven Sinofsky：这点非常重要，关系到如何使用工具。就像让我用一台12英寸的切割锯去修篱笆，这是个极糟糕的主意。我甚至可以买一台，但这并不是一个好方法。这也说明了平台转变通常是如何发生的。为什么大家对编程的变化格外兴奋？因为平台转变最先扎根的地方，往往是那些最接近专家的群体。他们会成为最热情、最大的用户群体。比如我最近在Palo Alto的社区中心上瑜伽课，那地方在80、90年代其实是计算机俱乐部的聚集地。当年一群人拿着电烙铁在修东西，有人折腾显卡驱动，有人讨论Postscript打印。整个聚会就是“谁能让最新的硬件跑起来”。现在发生的情况和那时很像。

显然，编程和开发是最先发生转变的领域。因为开发者最宽容，也最理解什么是bug、什么是暂时无法修复的限制。而且大家不会说“生成的代码坏了，所以永远修不好”。相反，大家知道未来一定能改进。接下来这种转变会扩展到写作，比如市场文档、定位文档等长文本工作。如果你很擅长，就知道该问什么问题，也知道什么样的结果是好的，于是可以做到高度专业化。再往下一步，就是竞争分析，这需要实时从互联网获取信息，而不仅仅是统计模型。比如，它本来就能知道竞争对手做什么。还有一个我最喜欢的场景，就是“攻击我写的东西”。我不希望它只是加几个破折号、修饰语言，而是直接告诉我遗漏了什么。比如有人让AI分析财报，结果发现它能像分析师一样指出问题。分析师每家公司有数千小时的问题积累，AI能模仿他们的提问逻辑。这类“攻击式”反馈非常有价值。

Aaron Levie：如果你是分析师，最好不要听这个。

Steven Sinofsky：对，这不是在教你怎么当分析师。但这确实会在写作、PPT、视频等内容创作中逐步发生。

Martin Casado：需要强调的是，这些结果通常是“共识平均”式的。在某种程度上，它帮专业人士卸掉了很多琐碎工作，因为他们本来就知道关键点，只是没时间或记不住细节，所以AI能提升效率。但它解决不了真正需要专家判断的问题。这也解释了为什么对非专家来说更具威胁，因为AI确实能替代他们的工作。

Aaron Levie：或许换个角度来回应Steven的问题：现在企业的情况是这样——大家已经清楚，输入的质量和输出强相关。所以提示词不会很快消失，因为起始指令的精确度对结果的影响极大。

Martin Casado：那如果提示词消失了呢？会变成什么？

Aaron Levie：两年前很多人觉得你只要告诉AGI想要什么，它就能直接完成。

Martin Casado：甚至有人幻想，你开机就给它一个提示：“去做软件工程师吧。”

Aaron Levie：但问题是，我脑子里的上下文对要生产的内容至关重要。如果我不告诉你，你绝无可能拥有这个上下文。所以现在我们看到越来越极端的提示词，有时长达数页，但效果明显好于没有上下文的情况。在企业里，这一点已经形成共识：必须给出清晰上下文，同时还要去审查输出。

Martin Casado：别忘了，形式化语言本来就是从自然语言演化出来的。我们之所以要发明形式化语言，是因为自然语言不足以高效传达信息。尤其当双方都是专家时，需要更高效地沟通。所以认为这种过程不会发生，其实是误解。

Steven Sinofsky：没错，这就是行话的本质：一种被形式化的专家交流方式。

Aaron Levie：所以现在最有趣的问题是：到底是工具适应工作方式，还是工作方式因工具而改变？目前我们还在早期，但已经开始看到一些迹象。最初大家以为Agent会学习我们的工作方式，然后自动化。但接下来可能是我们反过来适应Agent的使用方式。

比如在工程领域，很多人开始给不同的子Agent分配代码库部分，并为它们准备README文件。甚至会为了Agent去优化代码库，而不是让Agent适应现有代码。知识型工作也是如此，比如我们在Box的AI产品中看到，人们会直接把完整的任务和流程交给Agent，工作流逐渐由Agent来主导，而不是单纯映射到原有流程。我不确定历史上具体哪次技术革命改变了工作模式本身，但这次的发展也会如此。最终，工作本身会因为Agent的能力而发生变化，而不仅仅是把旧工作自动化。

Steven Sinofsky：其实更重要的是另一点。因为在使用这些工具的过程中，工具本身会赋予工作某种拟人化的属性。回顾计算发展的每一次演进，都是这样。比如，Steve Jobs花了很长时间才在智能手机上去掉实体数字按键；再比如汽车，直到Elon Musk去掉几乎所有物理控制之前，行业里的人仍然习惯保留所有的控制装置。我不想陷入这场争论，但事实就是如此。

智能体架构革命：微服务化与领域爆发

Steven Sinofsky：但就像每一次技术转型发生时一样，你要是回顾60年代的会计软件，在IBM介入之前，它们都在用复式记账。但IBM说，停，我们需要的是懂得如何让计算机来做会计的人，而不是让人自己做，因为如果要自动化掉那整屋戴着绿眼罩、依靠手工流程工作的人，那根本不可能完成关账。那时候整个流程甚至是依赖于工位之间的物理距离。而当PC和个人生产力工具兴起时，这一切也重复发生。我总是举这个例子，因为我亲眼看过五次了。最早的PC能做文字处理，人们最大的需求竟然是：我该怎么在上面填报销单？于是形成了一整个生态：用拖拉机送纸机打在预先印好的报销表格上。软件开发者要写大量代码来支持不同的表格，比如你用的是Avery 2942的报销表，还是New England Business Systems的A397？打印对话框里甚至要支持0.208英寸的微调，才能把“8美元22美分”准确打印在表格的对应位置。而这一切就是你要打印的全部。直到有人说，其实电脑可以把整张表格都打印出来。再往后，Concur又说，干嘛不直接拍收据的照片？这样整个流程就能自动完成。于是整个体系就被颠倒了。每一个业务流程最后都是这样被重塑的。还有一些工具带来的真正改变，比如Email。以前要准备会议议程，得有人用Word打一份排版精美的议程，然后打印出来，大家带去开会。而Email出现后，这个场景完全消失了。议程直接写在邮件里，没有任何格式，只是列出“今天要讨论的八件事”，然后大家见面时就问一句：你收到议程了吗？

Martin Casado：有趣的是，AI这一波有点类似，但又恰恰相反。过去没人真正预测到生成式的东西，虽然AI已经存在很久了。我们有过chatbot，也有过很多“AI形状的空洞”存在于企业里。但过去很多尝试的错误在于，人们把生成式AI硬塞进旧有的模式里，而它其实带来了全新的行为方式。以前你是把AI卖给平台团队，让他们去搞定NLP或者语音客服，那是一个中心化的过程。而现在我们看到的采用更多是个体化的。所以现在这种错配正在逐渐被修正。

Aaron Levie：问题在于，我们是不是正处在把Agent嫁接到过去30、40年的软件工作流中的阶段？还是说，这真的是我们第一次看到工作流本身发生根本性跳跃？

Steven Sinofsky：当然是后者。你想想，当年人们也在拼命把互联网硬塞进Office，对吧？

Aaron Levie：那场景真有意思。

Steven Sinofsky：但其实你没亲眼看过，当时所有人都只会设想：互联网只能被塞进现有产品。比如，没有人在互联网上写Word文档吧？也不会有人在互联网上做Excel表格。于是有人就尝试用7个HTML标签、没有脚本，来重写Excel，结果当然惨淡。还有人说，那我们做PowerPoint吧。怎么做？给用户5个输入框，告诉他们这是bullet points，然后后台生成一张GIF图片发回去当幻灯片。这当然也行不通。

Aaron Levie：这其实说明了Office的强大韧性，它几乎抵御了所有冲击。

Steven Sinofsky：没错。但现在我们也正处在类似阶段。

Martin Casado：你觉得这更像互联网那样的消费层变化吗？在我看来，互联网本质上是消费层的变化。以前我在电脑上干的事，现在去互联网干。但逻辑没变。而AI很特别，它第一次让我感觉到程序把逻辑交给了第三方。过去我们会把资源交给别人，比如用你的磁盘或驱动，但逻辑一直是我写的。可现在，当我儿子跟一个AI角色对话时，他不是去wellsfargo.com，而是直接和AI角色互动。这不仅改变了交互方式，还意味着程序逻辑本身不再是人类写的。

Steven Sinofsky：正因为如此，这才是平台级的转型，而不是应用级。每一次平台转型都会改变人与计算机交互的抽象层，同时改变程序要写给谁、写成什么。

Martin Casado：可你能想起什么时候我们真的放弃过逻辑吗？

Steven Sinofsky：举个例子，当年DOS时代的文字处理器都要自己实现打印驱动和剪贴板。如果你是Lotus，要在备忘录里插入图表，没门，因为你不卖Word处理器。于是Lotus只好做一个额外的程序，专门生成Word处理器能读取的内容。如果你是WordPerfect，你会在广告里打出“支持17种打印机”，于是能赢得评测，因为微软只支持12种。结果Windows一出，微软直接给Windows做了打印驱动和剪贴板，Macintosh也做了。突然之间，应用间可以互通了。而WordPerfect和Lotus因此丧失了竞争力，开发者们反而兴奋极了，因为他们不用再写驱动了。

Aaron Levie ：他们当时的感受，和现在很多开发者面对Agent的感受一样：平台替你承担了一部分逻辑。

Steven Sinofsky：没错，当年写Windows程序的书就这么厚，而写一个Epson或Canon打印机的驱动要厚得多。所以开发者们如释重负。

Martin Casado：是的，但当时的转变是减少开发者的工作量，而不是交出逻辑。现在不一样了。

Steven Sinofsky：可逻辑也不是黑白分明的。比如风格向导或者样式表，本质上就是程序员替用户做选择。对专家来说，这是削弱了他们的能力；但对大多数人来说，却是解放。AI也是类似的过程。

Martin Casado：我注意到一些最资深的开发者正在搭建大量后台Agent，甚至在Github PR层面进行交互。我不明白为什么需要多个，而不是一个，也不明白为什么不直接交互。感觉这里有些新东西在发生。

Aaron Levie：我的理解是，这是在解决上下文衰减的问题。我们越往context window里塞东西，模型就越困惑，答案质量下降。所以必须要把任务划分给不同Agent。比如我听说有一家创业公司，每个微服务都配一个Agent，并且给Agent写readme，让它专门负责那个微服务。这样避免了把整个代码库一次性交给一个Agent导致质量下降的问题。

Martin Casado：这个模式很有意思，它和“模型会越来越强大，能处理更高层次任务”的观点相反。

Aaron Levie：对，它正好相反，但正因为模型足够好，这才可行。未来可能每个律师、顾问都能像工程师一样，把自己的工作分配给几十个Agent去并行处理，最后再统一审阅。这不仅是生产力的提升，还会改变组织内部的工作设计和流程。

企业AI落地法则与平台权力博弈

Aaron Levie：我们可以共同做得很好。那么问题来了，好，如果我们假设这种方式在工程领域有效，就会出现一个有趣的动态，那就是未来的编码实践将会非常不同。我们之前讨论过一个概念，即个体工程师会成为Agent的管理者。这原本就是一个相对清晰的发展路径，而现在的新情况实际上是这个概念的超级加速版。接着问题是：这种模式几乎会如何扩展到所有工作形式？比如说，如果我是律师，在处理案件时，我可以拥有20个子Agent，它们分别处理不同的案件，然后将结果以某种任务队列的形式返回给我。那么显而易见的是，首先，这种方式带来的杠杆效应将会极其巨大。但我也认为，这将必然改变你组织工作的方式，以及组织内部的工作流。

Steven Sinofsky：这正好切中要点——工作流本质上是被序列化或线性化的，有时候是因为知识的限制，有时候则是因为工具的限制。当工具发生变化时，就会重新定义什么才是真正需要串行的，什么其实可以并行。举个例子，如果你要为一家公司策划活动，这种需求还是会存在的。比如你要订场地，要邀请所有人，要制作各种宣传材料。其实这些任务之间并没有特别强的先后依赖。但如果你只有一个活动策划人员，那么在执行时，它们就被人为地串行化了。而如果有了Agent，活动策划者就可以同时启动这些不同的部分，然后收集结果。

比如我在做宣传物料时，可以先做到拿到Logo为止；在做邀请函时，可以先做到确定日期、时间和场地为止。这些步骤之间是分散的，不必被完全锁定在同一个顺序上。现实中是怎么做的呢？如果你是一个公司，使用Box，并且已经办过58场活动了，那么你会有一个叫“event”的文件夹。第59场活动时，你就会复制一份，把里面所有的东西拷贝过来。如果你仔细想想，这其实就是一系列背景任务的集合，每个部分都可以交给Agent来完成。这也是为什么编码领域会有这么自然的分工模式，因为它们天然就能被拆分成很多模块。

Martin Casado：但另一方面，这其实也说明了一个问题：人类在上层管理上的能力有限，这意味着你需要不断地给它们下达更细化的指令。否则，如果你想创办一家公司，你只下一次指令，然后去海滩度假六个月，回来就发现公司已经建好了——这显然是不现实的。

Aaron Levie：这其实就像是一种重新拟人化的效果。我们人类确实已经摸索出了分工体系，但这是在物理和模拟世界中大量限制条件下形成的，而这些限制在Agent那里是不存在的。但这并不意味着完全没有代价。比如会出现上下文衰减的问题，你仍然需要在某些节点上把任务进行细分。关键问题是：如何确定合适的拆分方式。

Martin Casado：这未必是上下文衰减的问题，更像是优化的问题。你需要为它们提供针对具体任务的明确指令。如果你给的是高层次的指令，反而会出现上下文竞争，它们根本无法理解你想要的具体结果。

Steven Sinofsky：这就涉及到形式化语言的问题。如果你想让一个前沿的大模型完成所有任务，你必须一次性把全部需求告诉它。但这工作量非常大。而如果你只需要告诉它较少内容，是因为你使用的那部分模型已经知道更多背景知识了。这就像是换一种方式来理解“模板”或“起始工件”，也是在泛化环境中对上下文范围进行一种新定义。

Aaron Levie：不过这可能才是整体上正确的架构，因为我们必须假设模型永远不会达到100%的完美。所以，从架构设计角度讲，任务拆分反而更合理。你并不希望Agent一路在错误路径上越走越远，而没有在关键步骤时来向你确认。因为错误会不断叠加，所以你确实需要在任务分工上设立一些“检查点”，在依赖关系较多的地方让Agent知道什么时候该回滚并重新提交。

Martin Casado：与普遍的叙事相反，现在看来，提示词其实是在变得越来越复杂，而不是更简单。同时我们看到的趋势是Agent数量越来越多，执行的任务越来越窄、越来越深。这实际上有点反AGI的意味，因为这些Agent更专业、更专精。

Steven Sinofsky：这种历史脉络其实很明显。比如Expert Systems，一开始大家认为它们可以像专家一样解决所有问题。但真正的研究结果发现，它们只能解决非常窄的场景，比如诊断七种特定的传染病。

Martin Casado：我记得甚至有一篇论文说，只有某一种消化系统疾病真正适合用Expert System来诊断。

Aaron Levie：但这里有一个巨大差别：模型本身已经把大量内在的智能和能力打包进来了。我们受益于这一点，所以可以把所有东西都建立在比如GPT-4和Google Drive这样的通用基础上。

Martin Casado：对，而且这些能力都在同一台计算机上可用。

Steven Sinofsky：让我举个更直观的老例子。在PC早期，有文字处理器、电子表格、图形工具和数据库。当时很多人问，为什么要有四个程序？为什么不能只有一个程序？我的回答是：你去一趟办公用品商店就知道了。因为那里面就有不同的纸：有写数字的、有画方格的、有印透明胶片的。这种分工早就存在了，是有原因的。

Aaron Levie：那你花了几分钟就意识到Google Wave一定不会成功？

Steven Sinofsky：零分钟。

Aaron Levie：哈哈。

Steven Sinofsky：其实在Mac早期有一个被业界吹捧的产品叫Claris Works，它可以在文字处理器里嵌入电子表格。当时我第一反应就是：你见过人们用电子表格吗？他们只想要尽可能多的单元格，而不是局限在一张8.5×11的纸上。这里其实反映了一个问题：人类对于专业化的视角真的很重要。比如在医疗领域，从全科医生到放射科医生、专科医生、护士，每个角色看待AI和使用AI的方式都不一样。

Aaron Levie：但要注意的是，这种分工体系的形成花了100年的时间，是工具演化和物理约束共同推动的。真正的问题是，在后Agent时代的十年后，这些分工是否还会保持不变？还是会因为Agent的作用而出现模糊和融合？我们已经看到一些全新角色出现，比如组织里有人专门负责AI生产力，利用AI创造全新的效率。那么问题是：现有的分工体系是否也会在某些地方被Agent打破？

Steven Sinofsky：如果继续用医疗的例子，我们会看到更多专业，而不是更少。AI会催生更多细分角色，让人们的能力更强，知识更丰富。其实在计算机领域，这种过程已经发生过了。过去只有市场和研发这样的大类，但现在我们有了测试、设计、产品管理、可用性研究等一系列专业，每个专业都有自己的工具。就像建筑行业，以前一个木匠就能盖房子，现在你需要二十个分包商，各自只做某一种工序。

Martin Casado：IT的发展史也是一种不断的拆解。最早是硬件和操作系统的聚合，后来是应用的聚合。但过去15年，我们看到的是应用功能的再次拆解，几乎每个API都可以发展成一家公司。比如Twilio处理通信，Auth变成一家公司，Pub/Sub也变成一家公司。未来可能每个Agent都能发展成一个新的垂直领域公司。今天一家公司可能内部有多个Agent，而未来这些Agent可能会由第三方独立提供。

Steven Sinofsky：机会确实在这里。过去创业和分发的门槛极高，而现在这些门槛几乎消失了。

Martin Casado：过去几乎不可能。

Steven Sinofsky：对。

Martin Casado：比如，曾经觉得单独做一个Auth API公司是荒谬的，但后来这却成了现实。

Steven Sinofsky：甚至觉得只做一个签署文件的公司也是不可思议的，但后来不仅成了公司，还发现市场规模远远超出签署本身。

Aaron Levie：而这些其实都是过去被埋在公司内部，造成冗余、浪费甚至欺诈的部分。

Steven Sinofsky：对。

Aaron Levie：所以完全可以预见，未来会涌现数以千计的此类公司。Jared Freeman就发过一条推文，说可以深入某个具体工作流，把某个岗位的工作变成一个Agent。这可能就是数千个垂直场景的机会。

Martin Casado：这其实是反AGI的叙事，它沿着计算机科学的长期发展逻辑走下去：随着市场的增长，颗粒度不断细化，每个环节都可能孕育公司。

Steven Sinofsky：对，这其实也是一种指数式增长。比如Salesforce最早只是咨询公司，帮企业分析组织架构并出报告。后来Benyoff推出了基于云的CRM，彻底改变了模式，让销售人员用起来更方便，也更有效。这种小切口能成长为大市场的过程，未来在Agent领域也会不断上演。

一开始看似很小的功能，可能成长为完整的业务，因为分发、定制、安全和隐私问题都可以逐步解决。你看互联网技术栈的演化，15年前没人会相信CDN公司能独立存在，但现在却是庞大的产业。

Aaron Levie：人们对模型提供商“吃掉他们”的恐惧被夸大了。第一波确实发生过，比如GPT-2/3刚出来时，做文本生成的公司很快就被ChatGPT替代。但现在大多数企业需要的是应用在医疗、生命科学、金融服务等垂直领域的AI Agent。这些场景并不会被模型厂商替代，除了编码这一块可能例外，因为模型公司必须自己解决AI for coding，否则无法训练下一代模型。除此之外，未来五年几乎所有垂直领域都会需要专门的Agent公司。

Martin Casado：早期大家受到了一次技术假象的误导，那就是pre-training。Pre-training确实是10分满分的技术创新，但它让很多人误以为只靠预训练就能解决一切。比如有人训练一个模型专门生成老年人的照片，结果下一个版本的MidJourney就直接把效果超越了。Pre-training的本质是吸收全世界的数据并泛化，但这波红利已经过去，现在更多是post-training和RL，它们更偏向领域特定。

Aaron Levie：而一旦涉及某个企业的私有数据，能否访问这些数据、能否基于它做工作流，一定是应用公司而不是模型公司来承担。

Martin Casado：是的，如果我们有无限的Token，模型可能会继续无限泛化。但现实不是这样，所以公司必须选择进入哪些领域，解决长尾问题并获取领域数据。

Steven Sinofsky：另外，大公司“会把你们全部淘汰”的阴影其实并不真实。从历史上看，每次技术浪潮中这种担忧都被夸大了。比如1995年，如果你去做一个新的文字处理器，那真的是没前途。但在十年前，市场上甚至还有独立的拼写检查软件，它们靠词库规模竞争。

所以现在没人说清楚的一个问题是：真正的平台到底是什么？因为如果大模型厂商开始吞掉所有应用，那么开发者就不会愿意留在它们的平台上。这在Apple生态里叫Sherlocking，指的是平台方复制第三方的功能。这种行为会产生极大的寒蝉效应，而模型厂商迟早会意识到这一点。

Aaron Levie：是的，而且大公司很难在50个领域同时深入，预训练可以做到广覆盖，但一旦进入应用层，就会变成执行力的问题。没有哪家公司能打赢50个领域里的50个创业公司。

Steven Sinofsky：对，大公司真正的作用是提高一个类别的认知度，而这正给创业公司留下了空间。比如DocuSign就是一个只做签署文件的公司，但它却成长为巨头。

Martin Casado：从经济角度看，大多数公司在推理层面的成本曲线其实是“20%的推理占了80%的成本”。应用层的任务就是挑出这些高价值的部分，而这些往往是高度领域化的。

Steven Sinofsky：是的，这就是我们三个聊起来停不下来的原因。

Martin Casado：没错，要结束讨论才是最大的挑战。

Erik Torenberg：各位，非常感谢你们的分享，这次讨论太精彩了。

原视频：Aaron Levie and Steven Sinofsky on the AI-Worker Future

https://www.youtube.com/watch?v=1z1xZF7X2cQ

编译：Zhenning Du

{{userData.name}}已认证

喝点 VC｜a16z 圆桌：每一次平台迁移，改变的不仅是应用，更是人与计算交互的抽象层次

“销售 Alpha，而非功能”：面向 100 万到 1000 万美元年度经常性收入的企业销售策略 | Jen Abel

【早阅】用 Claude 编程：提示词入门

杨森淇@大连理工大学：文化偏见很重要：理解多模态隐喻的跨文化基准数据集和情感丰富模型

平均每年衰减 2.3%，新能源电池寿命远比你想象的更长

超越提示词设计：如何成为 AI 结对编程更好的伙伴

推理加速

AgentCPM-Explore 开源，4B 参数突破端侧智能体模型性能壁垒

关键技术详解｜腾讯一念 LLM 分布式推理优化实践