内容概要
在这一期 "Big Ideas 2026" 中,三位 a16z 合伙人探讨了 AI 从简单的聊天界面向主动执行任务的智能体(Agent)转变的过程。Marc Andrusko 提出了 "提示框的消亡",预测未来 AI 将像精英员工一样主动执行任务。Stephanie Zhang 讨论了软件设计必须转向 "机器可读性",而非仅供人类视觉消费。最后,Olivia Moore 分析了语音智能体(Voice Agents)在医疗、招聘等行业的迅速崛起,标志着语音 AI 从新奇事物向实用工具的过渡。
目录
-
前言:AI 交互界面的未来
-
提示框的消亡
-
AI 作为终极员工
-
CRM 与工作流中的主动型 AI
-
为智能体设计,而非为人类设计
-
机器可读性与内容创作
-
AI 语音智能体的崛起
-
医疗、金融与招聘领域的语音 AI
-
语音 AI 的挑战与机遇
-
消费级语音 AI 与健康管理
-
利用语音 AI 构建:工具与平台
前言:AI 交互界面的未来
主持人: 欢迎来到 Big Ideas 2026。我们将听到 Marc Andrusko 讲述 AI 用户界面的演变,以及我们需要如何从根本上改变与智能系统交互的方式。Stephanie Zhang 将讨论这意味着我们要为智能体(Agents)而非人类进行设计,这一转变正在重塑产品开发。Olivia Moore 将分享她对 AI 语音智能体崛起及其在日常生活中作用日益增强的看法。这些不仅仅是预测,更是来自那些直接与构建未来的创始人及公司并肩工作的一线洞察。
提示框的消亡
Marc Andrusko: 我是 Marc Andrusko,AI 应用投资团队的合伙人。我对 2026 年的大胆设想是:提示框(Prompt Box)作为 AI 应用主要用户界面的时代将走向终结。下一波应用所需的提示操作将大幅减少。它们会观察你的行为,并主动介入采取行动供你审查。
以前我们关注的市场机会是全球每年 3000 到 4000 亿美元的软件支出。现在,让我们兴奋的是美国本土高达 13 万亿美元的劳动力支出。这使得软件的市场机会(TAM)扩大了约 30 倍。
AI 作为终极员工
如果从这个角度出发,既然我们希望软件为我们要完成工作,理想情况下它的能力至少应该甚至超过人类,对吧?所以我喜欢思考:最优秀的员工是怎样的?最优秀的人类员工都在做什么?
最近我一直在谈论推特上流传的一张金字塔图,它描述了五种类型的员工及其优秀的原因。处于金字塔底层的人会发现问题,然后来找你求助,问该怎么做。这是自主性(Agency)最低的员工。
但如果你看 S 级,也就是你可能拥有的最高自主性的员工,他们会发现问题,进行必要的研究来诊断问题根源,研究多种可能的解决方案,实施其中一种,并在最后时刻通知你或向你确认:“你批准我找到的这个解决方案吗?”
这正是 AI 应用的未来。我认为这也是每个人都想要的,也是我们共同努力的方向。我非常有信心我们快要实现这个目标了。大语言模型(LLMs)持续变得更好、更快、更便宜。当然,在某种情境下,用户行为仍然需要在最后环节保留“人在回路”(Human-in-the-loop)来批准决策,特别是在高风险场景中。
但我认为模型完全有能力发展到这样的程度:它能代表你提出非常明智的建议,而你基本上只需要点击“接受”。
CRM 与工作流中的主动型 AI
大家都知道,我非常痴迷于 AI 原生 CRM(客户关系管理)的概念,我认为这是主动型应用的最佳范例。在今天的世界里,销售人员可能会打开 CRM,浏览所有的公开机会,查看当天的日历,然后思考:“我现在能采取什么行动来最大化我的销售漏斗和成单率?”
而未来的 CRM,你的 AI 智能体或 AI CRM 应该持续不断地代表你做所有这些事情。它不仅能识别管道中最显眼的机会,还能翻阅你过去两年的邮件并挖掘价值,比如:“这曾经是一个有潜力的线索,但你让它冷掉了,也许我们应该发这封邮件重新激活他们进入流程。”
无论是起草邮件、整理日历,还是翻阅旧的通话记录,机会是无限的。普通用户几乎 100% 还是希望保留“最后一公里”的批准权,希望人类作为决策者保留在回路中。这很好,我认为这是自然的进化方式。
我可以想象这样一个世界:超级用户(Power User)会花大量精力去训练他们使用的 AI 应用,使其尽可能多地了解他们的行为方式和工作表现。这些应用将利用更大的上下文窗口(Context Windows)和植入大模型中的记忆功能,让超级用户真正信任应用去完成 99.9% 甚至 100% 的工作。他们甚至会以无需人类批准即完成的任务数量为荣。
为智能体设计,而非为人类设计
Stephanie Zhang: 大家好,我是 Stephanie Zhang,a16z 应用团队的投资合伙人。我对 2026 年的大胆设想是:为智能体创造,而非为人类创造。我对 2026 年感到超级兴奋的一点是,人们必须开始改变他们的创造方式,这涵盖了从内容创作到应用程序设计的方方面面。
人们开始通过智能体作为中介来与网络或应用程序等系统进行交互。这意味着,对于人类消费而言重要的东西,对于智能体消费来说就不再以同样的方式重要了。
我在高中的时候上过新闻课。在课上我们学到,新闻报道的导语段落必须包含“5 个 W 和 1 个 H”的重要性,特写报道则需要一个吸引人的开头(Hook)。为什么?为了吸引人类的注意力。人类可能会错过埋在第五页的深刻且相关的陈述,但智能体不会。
多年来,我们一直在针对可预测的人类行为进行优化。你想成为 Google 搜索结果的前几名,你想成为亚马逊列表的前几项。这种优化不仅针对网络,也体现在软件设计中。应用程序是为人类的眼睛和点击设计的。设计师针对优秀的 UI 和直观的流程进行优化。但随着智能体使用率的增长,视觉设计对于整体理解的重要性正在降低。
机器可读性与内容创作
以前,在发生事故时,工程师会进入 Grafana 仪表盘,试图拼凑出发生了什么。现在,AI 会摄取遥测数据,分析数据,并将假设和见解直接报告到 Slack 供人类阅读。以前,销售团队必须点击并浏览 Salesforce 或其他 CRM 来收集信息。现在,智能体将获取这些数据并为他们总结见解。
我们不再是为人类设计,而是为智能体设计。新的优化方向不再是视觉层级,而是机器可读性(Machine Legibility)。这将改变我们的创作方式以及我们使用的工具。
这是一个我们尚不知道确切答案的问题:智能体在寻找什么?但我们知道的是,智能体在阅读文章所有文本方面比人类做得好得多,人类可能只读前几段。
市面上已经有许多工具被不同组织使用,以确保当消费者向 ChatGPT 询问最佳企业卡或最佳鞋子时,他们的产品能被展示出来。市场上出现了一堆我们称之为 GEO(生成式引擎优化)的工具。每个人都在问:AI 智能体想看什么?
我喜欢这个问题。虽然人类可能会选择完全退出循环,我们在某些案例中已经看到了这种情况。比如我们的投资组合公司 Decagon 已经在自动回答许多客户的问题。但在其他情况下,如安全运营或事故解决,我们通常看到更多“人在回路”的情况,AI 智能体首先尝试找出问题所在,运行分析,并向人类提供不同的潜在情况。
这些往往涉及更高的责任风险和更复杂的分析,我们看到人类会保留在回路中,并且可能会持续很长一段时间,直到模型和技术达到极高的准确性。
我不知道智能体是否会观看 Instagram Reels。这真的很有趣。至少在技术方面,针对机器可读性、洞察力和相关性进行优化是非常重要的。而在过去,更多是关于通过花哨的方式吸引人,捕捉注意力。
我们已经看到高容量、超个性化内容的案例。也许你不需要创作一篇极其相关且深刻的文章,而是创作大量低质量但针对你认为智能体想看的不同内容。这几乎就像是智能体时代的“关键词”策略。
当内容创作成本趋近于零,且极其容易大量创作时,这带来了一个潜在风险:仅仅为了捕捉智能体的注意力而产生海量内容。
AI 语音智能体的崛起
Olivia Moore: 我是 Olivia Moore,AI 应用投资团队的合伙人。我对 2026 年的大胆设想是:AI 语音智能体将开始占据一席之地。2025 年,我们看到语音智能体从看似科幻小说的概念突围,变成了真正的企业正在大规模购买和部署的技术。
我很兴奋看到语音智能体平台的扩展,它们跨平台、跨模态工作,处理完整的任务,让我们更接近真正的“AI 员工”愿景。我们看到几乎每个垂直行业的企业客户都在测试语音智能体,甚至已经进行了相当大规模的部署。
医疗、金融与招聘领域的语音 AI
医疗保健可能是其中最大的领域。我们在医疗保健堆栈的几乎每个部分都看到了语音智能体的身影:致电保险公司、药房、供应商,以及更令人惊讶的面向患者的通话。这可能包括预约和提醒等基础工作,也包括更敏感的通话,如术后随访甚至精神病学的问诊通话,现在都正由语音 AI 处理。
坦白说,这背后的一个主要驱动因素是目前医疗保健行业的高离职率和人员配备困难,这使得表现可靠的语音智能体成为了一个相当不错的解决方案。
另一个类似的类别是银行和金融服务。你可能会认为这里有太多的合规和监管要求,语音 AI 暂时无法涉足。但事实证明,这反而是语音 AI 表现优异的领域,因为人类其实很容易违反合规和规定,而语音 AI 每次都能严格遵守。重要的是,你可以追踪语音 AI 随时间的表现。
最后,我要说语音技术起飞的另一个领域是招聘。这涵盖了从零售一线工作到入门级工程职位,甚至中级咨询职位的所有领域。利用语音 AI,你可以为候选人创造一种体验,让他们在任何合适的时间即时进行面试,然后将其送往接下来的人类招聘流程。
随着底层模型越来越好,我们在今年看到了准确性和延迟方面的巨大改进。实际上,在某些情况下,我听说语音智能体公司甚至会故意放慢智能体的语速或引入背景噪音,以使其听起来更像人类。
语音 AI 的挑战与机遇
谈到 BPO(业务流程外包)和呼叫中心,我认为有些会经历较平稳的过渡,而另一些在面对 AI(特别是语音 AI)的威胁时可能会面临悬崖般的跌落。这有点像人们常说的:AI 不会夺走你的工作,但使用 AI 的人会。
我们看到很多终端客户可能仍然只想购买解决方案,而不是购买他们必须自己实施的技术。因此,在中短期内,他们可能仍会使用呼叫中心或 BPO,但他们可能会选择那些因使用 AI 而能提供更低价格或处理更大量业务的服务商。
有趣的是,在某些地理区域,人类劳动力的长期成本实际上仍然低于顶尖的语音 AI。因此,随着模型变得更好,观察那里的成本是否会下降将非常有趣,届时那些市场的呼叫中心可能会面临比现在更大的威胁。
AI 在处理多语言对话和重口音方面实际上表现得出奇地好。很多时候我在开会,可能有一个词或短语没听清,我去查看我的 Granola 转录,发现它记录得完美无缺。所以我认为这是大多数 ASR(自动语音识别)或语音转文本提供商目前能做到的好例子。
我希望明年能看到更多用例的领域是政府部门。我们投资了 Prepared 911。如果你能用语音 AI 处理 911 电话(非紧急类),那么你应该也能处理 DMV(机动车辆管理局)的电话以及其他任何政府相关的事务,目前这些事务对于消费者和电话另一端的工作人员来说都非常令人沮丧。
消费级语音 AI 与健康管理
我也对消费级语音 AI 的发展非常感兴趣。到目前为止,这主要是 B2B 的市场,因为用成本更低的 AI 替代或补充电话中的人类是非常显而易见的。我对消费级语音的一个兴奋点是更广泛的健康与保健领域。
我们已经看到语音陪伴在辅助生活设施和养老院中兴起,它既是居民的陪伴,也可以随着时间的推移追踪各种健康指标。
利用语音 AI 构建:工具与平台
我们认为语音 AI 更像是一个行业而非一个单一市场,这意味着在技术堆栈的每一层都会出现赢家。如果你对语音 AI 感兴趣,或者想在语音 AI 领域进行构建,我建议你去看看那些模型。像 ElevenLabs 这样令人惊叹的平台很多,你可以测试创建自己的声音和语音智能体,从而很好地感知什么是可能的,以及未来会发生什么。
