Anthropic:释放 Claude 构建 AI 代理的无限潜力




内容概要

本视频邀请了 Anthropic 公司的 Alex Albert(Claude 开发者关系负责人)、Brad Abrams(产品负责人)和 Katelyn Lesse(工程负责人),共同探讨了使用 Claude 构建 Agent 的演进过程。他们重点介绍了 Claude 开发者平台的最新功能,并阐释了为何通过提供合适的工具为模型“松绑”,能让 Agent 发挥出最佳性能。


目录

  • 开场介绍

  • 什么是 Claude 开发者平台?

  • 什么是 AI Agent?

  • 为 AI Agent 构建前沿智能

  • 减少模型脚手架以构建更好的 Agent

  • Agentic 框架的演变

  • 通过网页抓取等工具为模型松绑

  • 使用 Claude Agent SDK 构建 Agent

  • 识别 Agentic 用例的最佳实践

  • 通过 SDK 驱动更好的 Agentic 成果

  • 使用 Claude 管理上下文和记忆的最佳实践

  • Claude 开发者平台的未来


开场介绍

Alex Albert: 大家好,我是 Alex,在 Anthropic 负责 Claude 的开发者关系。今天,我们来聊聊如何与 Claude 一起构建 Agent 的未来。很高兴能邀请到我的同事们。

Brad Abrams: 我是 Brad,负责 Claude 开发者平台的产品管理(PM)团队。

Katelyn Lesse: 我是 Katelyn,负责 Claude 开发者平台的工程团队。


什么是 Claude 开发者平台?

Alex Albert: 让我们从 Claude 开发者平台(Claude Developer Platform)聊起吧。它以前叫做 Anthropic API,最近刚完成了一次重要的更名。能谈谈我们为什么要做这个改变,以及这个新平台包含了哪些内容吗?

Katelyn Lesse: 当然可以。Claude 开发者平台整合了我们的 API、SDK、文档、控制台内的所有体验,以及开发者基于 Claude 进行构建所需的一切。我们非常荣幸能为世界各地优秀的客户提供服务,帮助他们利用 Claude 提升智能的上限,而这个平台正是实现这一目标的基石。

我个人最喜欢的一点是,这个平台不仅服务于外部客户,也支撑着我们内部的产品。例如,我们经常提到的 Claude Code,实际上就是直接构建在我们的公共平台之上的。

Brad Abrams: 是的,最初我们只是一个提供模型访问权限的简单 API。但在过去一年里,我们增加了非常多的功能,比如提示词缓存(Prompt Caching)、独立的批量处理 API(Batch API)、网页搜索(Web Search)、网页抓取(Web Fetch)、上下文管理支持以及代码执行能力。随着这些工具的加入,我们觉得它已经真正成长为一个名副其实的平台了。

Alex Albert: 原来如此,所以它在过去一年里经历了巨大的演变,功能变得更加丰富了。

Brad Abrams: 可以这么说,而且开发者们实际上也开始这样称呼它了。顺应开发者的叫法是很自然的选择,我们只是稍微晚了一步,现在算是正式修正了。


什么是 AI Agent?

Alex Albert: 随着我们从聊天模型逐步迈向更具代理能力的未来,构建 Agent 成了这个开发者平台的一大亮点。在我们深入探讨如何构建之前,能不能先定义一下,到底什么是 Agent?

Brad Abrams: “Agent” 这个词现在几乎成了一个流行语,每个人都在谈论构建 Agent。当一个技术术语变得如此普及时,它的定义就会变得模糊。但在 Anthropic,我们认为 Agent 的核心在于模型能够自主地选择调用哪些工具、执行这些工具、处理返回结果,并决定下一步的行动。

作为一个基础研究实验室,我们非常看重模型的推理能力以及它如何决策,这正是我们定义 Agent 的关键要素。

Alex Albert: 所以关键在于它某种程度上的“自主性”。

Brad Abrams: 是的。当然,我们也有客户通过预设路径来引导 Claude 完成工作流,这同样非常有用。


为 AI Agent 构建前沿智能

Brad Abrams: 但 Agentic 模式的优势在于,随着模型每隔几个月变得更强,我们发布新模型时,采用这种模式的服务会自动变得更好。相反,如果你构建了一个包含大量脚手架(Scaffolding)的工作流,就相当于给模型设定了边界。这在某些场景下没问题,但这也意味着你可能无法充分利用新模型带来的更高智能。


减少模型脚手架以构建更好的 Agent

Alex Albert: 过去 6 到 12 个月,Agent 领域似乎出现了一个有趣的趋势:大家开始意识到过多的脚手架反而是一种束缚,并开始移除它们。这背后的逻辑是什么?未来我们真的会给模型越来越少的限制吗?

Brad Abrams: 是的,我们观察到,随着模型智能水平的不断提升,它完成任务所需的脚手架越来越少。我们相信模型的智能还会持续增长,这意味着模型对高级任务的上下文理解能力会更强,因此不再需要那么多护栏。

事实上,这些护栏在某些情况下甚至会成为一种负累。我们有客户在试用新模型后反馈说“效果只提升了一点点”,当我们深入了解后发现,正是因为他们以一种限制性的方式使用模型,导致很难看到新模型智能的真正提升。


Agentic 框架的演变

Alex Albert: 这种情况在我们的客户中普遍吗?我知道有些客户在探索各种创新的方法来管理 Claude。

Katelyn Lesse: 完全正确。现在关于什么是 Agent、需要构建什么,有很多讨论。有人开玩笑说,Agent 不过就是一个 while 循环,没必要搞得太复杂。

过去,行业内涌现出很多框架,帮助人们编排 Agent,试图最大化模型的效能。但大家逐渐形成一个共识:许多框架可能过于笨重和主观。这就是为什么会有人回归到“它只是一个 while 循环”这种简单的看法。

我们的想法是,或许在很多方面它确实像一个 while 循环,但我们能做的独特之处在于提供更多工具和功能,帮助用户最大化模型的价值。我们希望提供的框架和工具,在如何使用这些功能上能给出一些指导性建议,但又不是那种会妨碍模型发挥的超重型框架。我们力求在轻量化和功能性之间找到完美的平衡,确保核心目标是帮助你从模型中获得最大收益,而不是被复杂的框架所累。


通过网页抓取等工具为模型松绑

Alex Albert: 所以,我们的策略可以理解为:提供辅助工具给模型使用,但不对模型本身施加过多限制?

Brad Abrams: 是的,我们称之为“为模型松绑”(Unhobble the model)。模型本身已经具备了强大的能力,我甚至相信,即便是当前这一代模型,其蕴含的智能也远超我们已经发掘出来的。

我们的直觉是,只要给模型提供它需要的工具,然后放手让它自由发挥,就能得到出色的结果。一个很好的例子是我们推出的服务器端网页搜索和网页抓取工具。我们只用了一个非常精简的提示词,把这个工具交给模型,突然之间,深度研究这类任务几乎可以完全自动化。模型会自主调用工具、分析结果,然后判断是否需要进行更多搜索,或者在返回的链接中找到最有价值的一个进行深度抓取。所有这一切都是它自主决定的。

Alex Albert: 这确实是一个有趣的转变,系统的智能应用从开发者主导转向了模型主导。模型的表现令人兴奋,因为作为开发者,我的创造力是有限的,能想到的用例不多。但对于模型来说,任何任务它似乎都能找到解决办法。

Brad Abrams: 所以,为模型松绑真的太棒了。


使用 Claude Agent SDK 构建 Agent

Alex Albert: 那么,如果我是一个开发者,今天想开始使用开发者平台构建应用,你有什么建议或最佳实践吗?

Katelyn Lesse: 从具体操作层面来说,我们目前首推的是 Claude Code SDK。有趣的是,这个 SDK 最初是为编码目的构建的,但我们围绕模型设计了一个 Agentic Harness(代理框架),以自动化循环、工具调用等过程。团队很快发现,这其实是一个非常出色的通用 Agentic 框架。

所以,这个 SDK 为开发者提供了一个完美的开箱即用解决方案,让他们可以快速开始原型设计,而无需从头构建工具调用的循环。它基于 Messages API 和我们提到的所有工具构建,为你提供了一个非常好的起点。

Alex Albert: 我发现这是一个常见的误解。我和开发者交流时,他们会说:“我不是在构建编码应用,为什么要用 Claude Code SDK?” 但实际上,我们可以移除其中与编码相关的特定部分,对吗?

Brad Abrams: 这正是我们所说的“移除模型脚手架”的一个绝佳例子。当我们从 Claude Code 中移除了所有非必要的限制,试图为模型松绑时,最后发现剩下的部分已经没有任何与编码相关的特定内容了。它变成了一个纯粹的 Agentic 循环,一个极简的工具集,让 Claude 能够访问文件系统、使用 Linux 命令行工具、编写并执行代码。这些都是非常通用的能力,可以解决各种各样的问题。

Alex Albert: 是的,我自己的业余项目和公司内部的项目都遇到了类似的情况。在 Claude Code SDK 出现之前,每个人都在重复实现某种形式的提示词缓存或工具调用循环。现在,我们可以在一个更高的起点上开始构建。


识别 Agentic 用例的最佳实践

Alex Albert: 这确实是一个更高级的抽象。

Brad Abrams: 我认为,对于希望应用 Agent 的企业来说,另一个需要思考的关键问题是:应该瞄准哪些用例?除了技术本身,真正要去解决的业务问题是什么?我们看到很多客户在做各种各样的尝试,我们都很支持,但真正能产生巨大影响的,是那些深入思考过业务价值的用例。比如,这个 Agent 能否为我们节省工程时间?能否减少多少体力劳动?清晰地阐明 Agent 项目的预期成果,对于定义其范围非常有帮助。


通过 SDK 驱动更好的 Agentic 成果

Alex Albert: 回到 SDK 的话题。对于像我这样的个人开发者来说,它非常有用。但对于那些希望从中获取真实商业价值的企业客户,这个 SDK 是否已经准备好进行规模化部署了?

Katelyn Lesse: 在很多方面,答案是肯定的。如果你能够部署这个运行时(Runtime),也就是 SDK 提供的 Agentic 循环,那么你就可以随时随地进行部署。但我们更希望做的是,将 SDK 所释放的潜力提升到一个更高阶的抽象层面。我们提供自动化的循环和工具调用,并从中学习,为用户提供能够规模化解决其用例的开箱即用方案。

这也是我们今年下半年路线图的重点方向。我们的最终目标是帮助用户提升智能的上限,从模型中获得最佳结果。因此,更高阶的抽象不仅是为了简化编码,更是为了真正帮助你取得成功。因为我们与研究团队和推理团队紧密合作,我们知道如何让我们的抽象和 Agentic 循环与 Claude 配合得天衣无缝。

此外,随着任务运行时间的变长,用户面临的另一个大问题是如何观测(Observability)这些长时任务。他们需要了解任务进展,可能需要进行一些引导,或者调整提示词和工具调用。这是我们可以通过平台为用户提供的另一个关键能力,也是我们未来的一个主要关注点。


使用 Claude 管理上下文和记忆的最佳实践

Alex Albert: 这一点非常重要。随着我们越来越信任 Agent 在后台自主工作,如何确保它们做的是对的,以及如何审计它们,成了一个核心问题。如果我们给予系统一定程度的自主权,就必须有审计机制。

在讨论未来如何解决这个问题之前,目前还有没有其他工具是开发者入门时应该了解的?

Brad Abrams: 除了我们提到的网页搜索和网页抓取,另一个重要领域是上下文窗口(Context Window)的管理。Claude 默认有 200K token 的上下文,Sonnet 模型的测试版已经支持百万级 token,但这终究是有限的。许多客户告诉我们,即使只使用一小部分上下文,也能获得更好的输出。

因此,我们推出了一些新功能来帮助开发者管理上下文。在 Agentic 循环中,可能会有成百上千次的工具调用,每次调用都会消耗 token。我们开发了一个很酷的功能,可以让模型自动移除不再需要的旧工具调用记录。这就像整理你的办公桌一样,一个整洁的提示词能让模型更专注于当前任务。

Alex Albert: 这很有趣。移除不必要的上下文,会不会有误删重要信息的风险?

Brad Abrams: 我们设置了一些防护措施。通常,我们会尝试移除几轮对话之前的工具调用,因为模型很可能已经基于那些信息做出了决策。当然,如果你把刚刚调用的工具结果移除了,模型会发现结果不见了,然后它可能会选择重新调用一次。所以,我们通常会保留最近的工具调用记录。

另一个巧妙的设计是,当我们移除工具调用记录时,会留下一个“墓碑”(Tombstone),告诉模型:“这里曾经有一个搜索工具的调用结果,现在已被移除。”这样,模型就不会完全失忆,它知道那里发生过什么。

我们还增加了一个类似“代理记忆”(Agentic Memory)的功能。目前,模型每次执行同一个任务,表现都差不多。但人类不同,第五次做同一件事时会做得更好,因为我们学会了经验。所以我们给了模型一个记忆工具,让它可以在执行任务时做笔记,比如“这个网站可能不合适”或者“下次搜索应该用这个数据库”。当它遇到困难时,可以回顾这些笔记,从而做出更明智的决策。

Alex Albert: 所以这些都由平台为开发者处理好了?

Brad Abrams: 我们提供了这个核心的记忆能力,但目前由开发者来管理记忆的存储。因为不同的开发者可能想把它存储在不同的云服务或地方,这样他们能有更多的控制权。


Claude 开发者平台的未来

Alex Albert: 听起来我们最近发布了很多新功能,而且势头正猛。Katelyn,在未来 6 到 12 个月里,你最期待的是什么?

Katelyn Lesse: 我最期待的是将我们提到的更高阶抽象与可观测性结合起来。这样,用户不仅能轻松地从 Claude 获得最佳结果,还能看到数据,从长时任务中获得洞见。

如果再结合像 Brad 提到的记忆功能,你就能看到一个飞轮效应:我们不仅能帮助你获得最佳结果,还能帮助你获得一个能够自我改进、持续优化的结果。对我来说,这才是路线图中最激动人心的部分——让用户在构建过程中不断体验到“原来可以这样”的惊喜时刻,看着他们的应用随着时间推移变得越来越好。

Alex Albert: 太棒了。

Brad Abrams: 我总是对新模型的发布充满期待,就像过节一样,总想看看它又解锁了哪些新的可能性。有些用例是我们努力改进后终于实现的,这很有成就感;还有一些则是我们完全没想到的,比如它画 ASCII 字符画的能力变得更强了。

除此之外,我非常兴奋的一件事是,我们正处于“给 Claude 一台电脑”的早期阶段。试想一下,如果我们招聘一个新员工,却不给他配电脑,他肯定无法成功。现在,我们使用的 Claude 就好像没有电脑一样。

代码执行工具是我们迈出的第一步,模型可以编写代码、在虚拟机上执行并获取结果,从而实现分析 Excel 表格、生成图表等功能。但这仅仅是开始。如果它能拥有一台持久化的电脑,可以按照自己的方式组织文件、配置工具,那将释放出巨大的潜力。

Alex Albert: 我想这一切最终都回到了“为模型松绑”这个核心理念上。

Brad Abrams: 完全正确,核心就是为模型松绑,给它应有的工具。

Alex Albert: 我对这个未来充满期待。非常感谢这次的分享。

Brad Abrams: 不客气,谢谢你。


AI 前线

字节突然开源 Seed-OSS,512K 上下文主流 4 倍长度,推理能力刷纪录

2025-12-23 12:59:40

AI 前线

【第 3598 期】AI 提示的艺术

2025-12-23 12:59:51

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索