Chip Huyen 谈 AI 工程：来自 Nvidia、Stanford、Netflix 的经验分享

内容概要

Chip Huyen 是一位在 Nvidia、Netflix 和 Stanford 拥有丰富经验的 AI 专家，她加入本期播客，从她构建 AI 产品和为企业提供咨询的深厚经验出发，讨论了究竟是什么在真正改善 AI 应用程序。本次对话涵盖了预训练 (pre-training) 和后训练 (post-training) 之间的区别、RLHF (基于人类反馈的强化学习) 的运作方式、数据质量为何比工具选择更重要、为什么表现优异的工程师能从 AI 中获得最大收益，以及为什么许多 AI 挑战本质上是用户体验 (UX) 问题。

Chip Huyen 简介
Chip 在 LinkedIn 上的热门帖子
理解 AI 训练：预训练 (pre-training) vs 后训练 (post-training)
语言模型 (Language modeling) 解释
后训练 (post-training) 的重要性
强化学习 (Reinforcement learning) 和人类反馈
评估 (Evals) 在 AI 开发中的重要性
检索增强生成 (RAG) 解释
AI 工具采用的挑战
衡量生产力的挑战
“三分桶”测试 (The three-bucket test)
工程角色的未来
机器学习 (ML) 工程师 vs AI 工程师
展望未来：AI 的影响
模型能力 (Model capabilities) vs 感知性能 (Perceived performance)
闪电问答 (Lightning round) 和最后总结

Chip Huyen 简介

Chip Huyen: 有一个我被反复问到的问题是：我们如何才能跟上最新的 AI 资讯？

你为什么需要跟上最新的 AI 资讯呢？如果你去和用户交流，了解他们想要什么、不想要什么，研究他们的反馈，你对应用的改进效果会远远好得多。

很多公司在开发 AI 产品，但其中很多公司在开发过程中并不顺利。

我们现在正处于一场“创意危机” (ideal crisis) 中。我们拥有所有这些非常酷的工具，你可以从头开始做任何事情，它可以帮你设计、帮你写代码、帮你建网站。

所以理论上，我们应该能看到更多的成果，但与此同时，大家或多或少都卡住了。

他们不知道该做什么。尽管有这么多关于 AI 的炒作，但数据显示，大多数公司尝试之后，发现效果不佳，就停止了。

你认为这里的差距在哪里？生产力是很难衡量的。

所以我确实会建议人们去问他们的经理：你是宁愿给团队里的每个人都订阅昂贵的 AI 编程助手 (coding agent)，还是愿意多一个招聘名额 (headcount)？

几乎所有的经理都会说要招聘名额。但如果你去问 VP 级别的人，或者管理很多团队的人，他们会说要一个 AI 助手。

因为作为经理，你还在成长，对你来说，多一个人力编制 (HR head) 是件大事；而对于高管来说，你可能更关心业务指标，所以你才会真正思考什么能驱动你的生产力指标。

Lenny: 今天我的嘉宾是 Chip Huyen。

和许多分享如何构建优秀 AI 产品以及行业未来趋势的人不同，Chip 已经构建了多个成功的 AI 产品、平台和工具。

Chip 曾是 NVIDIA Nemo 平台的核心开发者、Netflix 的 AI 研究员，她还在 Stanford 大学教授机器学习。

她也是一位两度创业的创始人，并著有两本 AI 领域的畅销书，包括她最近的《AI 工程》(AI Engineering)——这本书自发布以来一直是 O'Reilly 平台上阅读量最高的书。

她还与许多企业合作制定 AI 战略，因此她能亲眼看到许多公司内部的实际情况。

在我们的对话中，Chip 解释了很多基础知识，比如预训练 (pre-training) 和后训练 (post-training) 到底是什么样的？什么是 RAG？什么是强化学习 (reinforcement learning)？什么是 RHF？

我们还深入探讨了她关于如何构建优秀 AI 产品的所有经验，包括人们认为需要什么，以及实际需要什么。

我们谈到了公司最常遇到的陷阱、她认为生产力提升最明显的领域，以及更多内容。

这一集技术性很强，比我以往的大多数对话都要深入，适合所有希望更深入了解 AI 的人。

如果你喜欢这个播客，别忘了在你的播客应用或 YouTube 上订阅和关注。

如果你成为我付费周报 (newsletter) 的年度订阅者，你将获得 16 款优秀产品的一年免费使用权，包括 Devon、Lovable、Replet、Bolt、NAN、Linear、Superhum、Dcript、Whisper、Flow、Gamma、Perplexity、Warp、Granola、Magic Patterns、Rickcast、JPRD 和 Mobin。

请访问 Lenny's.com 并点击 "Product Pass"。

接下来，在一段简短的赞助商广告之后，我将为您带来 Chip Huyen。

本集由 Dscout 为您带来。如今的设计团队被期望既要快速行动，又要保证做对。

这就是 Dscout 发挥作用的地方。Dscout 是一款一体化 (all-in-one) 研究平台，专为现代产品和设计团队打造。

无论你是在进行可用性测试、访谈、调研，还是实地考察 (in the wild fieldwork)，Dscout 都能让你轻松连接到真实用户，快速获得真实的洞察。

你甚至可以直接在平台内测试你的 Figma 原型。

无需在不同工具间切换，也无需追逐那些“幽灵”参与者。凭借业内最受信赖的受访者库 (panel) 加上 AI 驱动的分析，你的团队可以在不拖慢节奏的情况下，获得清晰的思路和信心来构建更好的产品。

如果你准备好简化研究流程、加快决策速度，并设计出有影响力的产品，请访问 dscout.com 了解更多。

网址是 dscout.com。你需要的答案，助你自信前行。

你知道吗？我有一个完整的团队在帮我制作播客和周报。

我希望团队中的每个人都能开心工作，并在自己的角色上茁壮成长。

Just Works 深知，你的员工不仅仅是员工，他们是你的“人”。

我的团队分布在科罗拉多、澳大利亚、尼泊尔、西非和旧金山。

如果没有 Just Works，我的生活将会非常复杂：要跨国招聘员工，要用当地货币按时支付薪水，还要 7x24 小时回答他们的 HR 问题。

但有了 Just Works，一切都变得超级简单。

无论是设置自动化的薪资发放、提供优质福利，还是跨国招聘，JustWorks 都提供了简洁的软件和来自小企业专家的 7x24 小时人工支持，为你和你的员工服务。

他们把人力资源 (human resources) 事务处理得妥妥当当，这样你就能善待你的员工。

Just works，为了你的人。

Chip 在 LinkedIn 上的热门帖子

Lenny: Chip，非常感谢你来到这里，欢迎做客播客。

Chip Huyen: 嗨，Lenny。我关注你的播客有段时间了，非常高兴能来到这里，谢谢你的邀请。

Lenny: 我想从你不久前在 LinkedIn 上分享的一张图表开始，那张图表传播得非常广。

我认为它之所以火爆，是因为它触动了很多人的神经。

我来读一下，我们也会在 YouTube 上展示给观众看。

你分享的是一个非常简单的表格，内容是“人们认为什么能改善 AI 应用”和“什么实际上能改善 AI 应用”。

人们认为能改善 AI 应用的包括：及时了解最新的 AI 资讯、采用最新的“代理” (agentic) 框架、纠结使用哪个向量数据库 (vector databases)、不断评估哪个模型更智能、对模型进行微调 (fine-tuning)。

而你写的“实际上能改善 AI 应用”的包括：与用户交谈、构建更可靠的平台、准备更好的数据、优化端到端的 (end-to-end) 工作流、编写更好的提示 (prompts)。

你为什么认为这触动了大家的神经？总而言之，你认为在构建成功的 AI 应用方面，人们缺失了什么？

Chip Huyen: 有一个我被反复问到的问题是：我们如何才能跟上最新的 AI 资讯？

我就想，你为什么需要跟上最新的 AI 资讯呢？我知道这听起来很反直觉，但是现在资讯太多了。

很多人也会问我这样的问题：我该如何在两种不同的技术之间做选择？

比如最近的 MCP 对比 Asian Asians，对吧？那个协议 (protocol)。他们会问，哪个更好？这个还是那个？

我过去常问他们的一个系列问题是：首先，采用最优方案和非最优方案，你能获得多大的改进？

有时他们会说，其实差别不大。

我就会说，好吧，如果改进不大，你为什么要花这么多时间去争论一个对你性能没那么大影响的东西呢？

我问的另一个问题是：如果你采用了一项新技术，将来要把它换成别的技术有多难？

有时他们会说，哦，我觉得替换掉会很麻烦。

我就会想，嗯，假设这里有一项新技术，它没有经过很多人的测试，如果你采用了它，你就可能永远被它套牢 (stuck)。

你真的想采用它吗？也许你该在过度投入一项未经实战检验 (battle tested) 的新技术之前三思。

Lenny: 我很喜欢你更宏观的建议，很简单：要构建成功的应用，就去和用户交谈、构建更好的数据、编写更好的提示、优化用户体验，而不是只关注什么是最新最好的、现在该用哪个模型、AI 领域发生了什么。

理解 AI 训练：预训练 (pre-training) vs 后训练 (post-training)

Lenny: 让我们顺着微调 (fine-tuning) 和后训练 (post-training) 这个思路聊下去。

在 AI 领域，人们总能听到各种术语，我认为这是一个很好的机会，让大家能真正了解我们到底在谈论什么，毕竟你就是做这些事的，你构建它们，并与公司合作。

我想在对话中穿插几个术语，但让我们从这个开始：

对于普通人来说，理解预训练 (pre-training) 和后训练 (post-training) 之间区别的最简单方式是什么？

以及微调 (fine-tuning) 是如何融入其中的？微调到底是什么？

Chip Huyen: 先声明一下，我并不能完全看清那些大型、神秘的“前沿实验室” (frontier labs) 到底在做什么。

但根据我听到的信息，我认为其中一种是监督微调 (supervised fetuning)，就是当你有了演示数据 (demonstration data)，你有一群专家，他们会说，OK，这是一个提示 (prop)，这应该是答案的样子。

然后你就在这些数据上训练模型，让它模拟 (simulate) 或效仿 (emulate) 人类专家的行为。

这也是很多开源模型 (open source models) 正在做的事情。他们通过“蒸馏” (distillation) 来实现。

他们不是让人类专家针对热门提示写出非常好的答案，而是让那些非常流行、著名、强大的模型去生成回应，然后训练这个较小的模型去效仿。

所以有时你会看到人们……顺便说一句，我非常欣赏开源社区，但是，能够训练一个模型去效仿一个现有的好模型，和能够训练一个超越现有好模型的好模型，这是截然不同的。

这中间有很大一步。

所以，我们有监督微调 (supervised fetuning)。另一件非常重要的事情，我不确定你的嘉宾是否已经谈论过，那就是强化学习 (reinforcement learning)，它现在无处不在。

语言模型 (Language modeling) 解释

Lenny: 好的，我们先暂停一下，因为我非常想花时间聊聊这个话题。在我的对话中，这个话题正变得越来越重要。

不过，为了总结一下你刚才分享的内容——我认为这些都非常重要——

这个想法是，一个模型本质上就是一段算法代码，有人编写了它。比如那些前沿模型，它们被投喂了整个互联网的内容。

基本上，它试图在所有这些数据中测试自己，预测下一个词 (word)。

或者说 Token 是一个更简单（尽管不完全准确）的理解方式，就是预测文本中的下一个词。

当它预测错了，它就会调整那些叫做“权重” (weights) 的东西。

大致是这样理解吗？虽然这只是非常表层的理解。

Chip Huyen: 我认为语言建模 (language modeling) 是一种对语言统计信息进行编码 (encoding) 的方式。

比方说，我们都说英语，所以我们大概能感觉到什么在统计上是更可能的。

如果我说：“我最喜欢的颜色是……”，你大概会想，后面应该是一个颜色。

出现“蓝色”这个词的概率，会远远大于出现“桌子”这个词。

因为从统计上看，“蓝色”跟在“我最喜欢的颜色是”后面的可能性更大。

所以，它就是一种编码统计信息的方式。

当你用海量数据训练语言模型时，它见过了大量的语言和领域，它就能判断：OK，你说了这个标准，如果用户给出这个提示，它就会给出下一个最有可能的 Token。

顺便说一句，这其实不是一个新想法。这个想法非常古老，来自 1951 年的一篇论文，关于“英语的熵” (English entropy)，我想是香农 (Shannon) 写的，那是一篇很棒的论文。

我非常喜欢的一个故事，是关于……你读过《福尔摩斯》(Sherlock Holmes) 吗？

Lenny: 嗯，读过几本。

Chip Huyen: 这个故事是关于福尔摩斯如何利用这种统计信息来破案的。

在那个故事里，有人留下了一条信息，是用很多“小人” (stick figures) 组成的。

福尔摩斯想：OK，他知道在英语中，最常见的字母是 E。

那么，出现最频繁的那个“小人”，一定代表 E。

然后他就从那里开始，解开了密码。

我认为这就是语言，在某种程度上，这就是简单的语言建模。

只不过他是在字符 (character) 级别上做的，而不是在词 (word) 级别上。

而 Token 是介于两者之间的。Token 不完全是一个词，但它比一个字符要大。

我们之所以用 Token，是因为它能帮我们减少词汇量 (vocabulary)。

因为字符是最小的词汇单位，比如 26 个字母，但词 (words) 可能会有几百万个。

而 Token 让你能在这两者之间找到一个平衡点 (sweet spot)。

比如我们有个新词，像“podcasting” (播客中)。

这可能是一个新词，但它可以被拆分为“podcast” (播客) 和“ing”。

人们就能理解：OK，“podcast”我们知道意思，“ing”我们知道是动词的某种形式。

所以我们就知道了“podcasting”这个词的意思。这就是 Token 发挥作用的地方。

总之，预训练 (pre-tuning) 基本上就是在编码语言的统计信息，帮助你预测什么是最有可能的。

我认为“最有可能的” (most likely) 是最简单的理解方式。

因为它更像是构建一个分布 (distributions)，比如：OK，下一个 Token 有 90% 的概率是一个颜色，有 10% 的概率是别的东西。

基于这个分布，语言模型会根据你的采样策略 (sampling strategy) 来选择。

你是想让它总是选择最有可能的那个 Token，还是想让它选点更有创意的？

我认为采样策略是一个极其重要，但又被严重低估 (underrated) 的东西，它能在很大程度上提升模型的表现。

Lenny: 好的，太棒了。所以，一个模型本质上就是一段代码，带着一整套权重 (weights)，这个统计模型学会了预测在特定词组后面会出现什么。

而后训练 (post-training)，特别是微调 (fine-tuning)，做的也是同样的事情。

预训练得到了比如 GPT-5。

微调就是有人拿着 GPT-5，在他们认为对其特定用例所必需的数据上，做同样的事情，稍微调整一下这些权重。

可以这么简单理解吗？

Chip Huyen: 是的，你可以把权重看作是函数 (functions)。

比如你有一个函数，Lenny 的身高可能是 $1x +$ 某个值，或者 $2x +$ 某个值，“ $1$ ”和“ $+$ 某个值”就是权重。

你不断改变它，直到它能拟合 (fit) 正确的数据，也就是我的身高和你的身高。

所以你可以把权重看作是函数的一部分，你调整权重，让它们能拟合训练数据。

后训练 (post-training) 的重要性

Lenny: 那么，我们谈了预训练、后训练和微调。关于这部分训练，还有什么需要让大家了解的吗？

Chip Huyen: 绝大多数时候，我们（作为用户）是不会去碰预训练模型的。

Lenny: 都是已经为我们做好的。

Chip Huyen: 是的。其实这个过程挺有趣的，当我的朋友们在训练模型时，我试着玩过他们的预训练模型 (pre-shing model)，简直一塌糊涂。

它们会说一些，哦天呐，简直太疯狂了。

所以，看看后训练 (post training) 能多大程度上改变模型的行为，是件非常有趣的事。

我认为这也是现在前沿实验室 (front lab) 投入大量精力的地方。

因为预训练，我认为，预训练被用来提升模型的基础能力 (general capacity)，这依赖于大量的数据和模型规模。

但在某个点上，我们在数据方面其实已经快要耗尽 (max out) 了。

人们测试过，基本上……我想很多人在用其他数据，比如音频和视频，每个人都在想新的数据来源是什么。

但是，当大家都能拿到相似的预训练数据时，后训练 (post training) 就成了如今拉开差距的关键。

强化学习 (Reinforcement learning) 和人类反馈

Lenny: 这就引出了你刚才提到的监督学习 (supervised learning) 和非监督学习 (unsupervised learning)。我很高兴我们能聊到这个，这太有趣了。

你提到了标注数据 (labeled data)。基本上，监督学习就是 AI 在已经有人标注好的数据上学习，这些数据告诉了它什么是对的，什么是错的。

比如，这是垃圾邮件，这不是垃圾邮件。

这是一个好短篇故事，这不是一个好短篇故事。

我们邀请过很多为实验室做这件事的公司 CEO，比如 Mercor、Scale、Handshake，还有 Micro 等等。

所以，这些公司本质上就是在为实验室提供标注好的、高质量的训练数据吗？

Chip Huyen: 某种程度上是，但我认为这更像是一个大等式 (big equations) 中的一部分。

这里面还有很多不同的组成部分。

这就是为什么我刚才提到了强化学习 (reinforcement learning)。我不确定你采访的那些 CEO 有没有提到这个词。

它的理念是，你希望模型……比如你给模型一个提示 (prop)，它产生一个输出 (output)。

你想要强化 (reinforce) 或鼓励模型去产生一个更好的输出。

那么问题来了，我们怎么知道这个答案是好是坏呢？

人们依赖的是“信号” (signals)。

一种判断好坏的方式就是人类反馈 (human feedback)。

比如我们有两个回应，你可以说：OK，这个比那个好。

我们这么做是因为，作为人类，我们很难给出一个具体的分数，但做比较 (comparisons) 要容易得多。

比如你让我给这首歌打分，我又不是音乐家，我不知道它有多难，我可能会说，10 分制我给 6 分？

如果你一个月后再问我，我完全忘了，也许这次给 7 分，或者 4 分，谁知道呢。

但如果他们问我：这里有两首歌，生日派对上你更愿意放哪一首？

我就可以说：OK，我更喜欢这首。所以，比较要容易得多。

所以，我们有了人类反馈，然后你用这些人类反馈去训练一个“奖励模型” (reward model)。

这个模型会告诉你哪个更好。然后这个奖励模型会帮助你：OK，现在模型产生了新回应，奖励模型会给它打分，判断是好是坏。

你引导它（模型）产生一些偏好 (bias)，使其倾向于产生更好的回应。

另一种方式是，你可以不用人类，你可以用 AI 来反馈，比如对一个回应说“好”或“坏”。

还有一种现在非常流行的方式，叫做“可验证的奖励” (verifiable rewards)，这是很自然的。

比如，他们给模型一道数学题和答案。

如果模型的输出是一个答案，你知道标准答案应该是 42，但它没有输出 42，那它就是错的，不是一个好的回应。

所以，很多时候，人们会雇佣这些体力劳动者 (human laborers)……或者说是人类专家，来产出专业的 (expert) 问题和预期答案，并设计一个可验证的系统，以便模型可以在这上面进行训练。

Lenny: 好的，我很高兴你提到了这一点。这本质上就是 RHF (Reinforcement Learning with Human Feedback，基于人类反馈的强化学习)，这正是我也想谈论的。

Chip Huyen: 是的。我认为这很普遍，这是一种学习方式，是一种情境学习 (contextual learning)。

无论是从人类反馈中学习，还是从 AI 反馈中学习，或者是从可验证的奖励中学习，

我认为这些都只是收集信号 (signals) 的不同方式。

Lenny: 太棒了。我们之前邀请过 Anthropic 的 CEO，他谈到了他们版本的 RHF，也就是 AI 驱动的强化学习。

我喜欢你的表述方式：你基本上是想帮助模型，强化 (reinforce) 它的正确行为和正确答案。

这就是实现的方式。无论是一名工程师看到模型的输出后说：“不，我会这样写代码”，

然后去训练……它是训练了另一个不同的模型，原始模型会与这个新模型协作，告诉它“我做对了吗”？

是这样吗？

Chip Huyen: 是的，可以这么理解。

我认为这个领域现在非常令人兴奋，因为模型开发者希望模型在太多领域专家的任务上都表现出色。

比如你是个会计师，你可能想用模型来处理会计任务。

那么我就需要大量的会计数据，比如来自会计师的案例，我需要雇佣大量的会计师来做这件事。

或者你想让它做物理题，或者法律问题，或者工程问题。

有人告诉我，他们想用 AI 编程来解决科学问题，而不仅仅是用编程来开发产品，这又是另一个完全不同的领域了。

而且这还涉及到使用非常特定的工具。

比如，我不知道你用什么应用，但也许是视频编辑应用，或者是 Quickbooks，或者是 Google Excel，它们都有非常特定的、需要专业知识的工具，你希望模型能学会。

所以你需要大量这个领域的人类专家来创建数据训练它们。

这是一个庞大的产业。因为每个人都想要大量的数据，实验室似乎有无限的预算。

但是，这其中也涉及到一个有点微妙的经济学问题，我不确定你是否和嘉宾聊过。

我觉得这很有趣，因为这个市场是严重失衡的 (lopsided)。

“前沿实验室” (frontier labs) 只有那么几家。

他们需要大量数据，而同时有海量的创业公司或公司在提供相关数据。

所以你可以看到这些做数据标注的创业公司，他们可能有很高的年收入 (AR)，但你问他们：你们有多少客户？

他们可能会说：哦，非常少。

我不知道……我看到你在笑。

Lenny: 是的，我们聊过这个。

Chip Huyen: 所以这让我有点不安。这些公司增长得非常快，但他们严重依赖两三家公司。

同时，如果我是前沿实验室，对我来说最经济的做法是什么？

我现在需要很多创业公司，我需要很多供应商，这样我才能挑挑拣拣。

然后这些供应商之间也会相互竞争来压低价格。

而且他们对我的依赖性这么强，不管怎样他们都会卖给我。

所以，我觉得这个经济学，整个经济生态，对我来说非常有趣，我很好奇它会如何演变。

Lenny: 我听下来，你似乎对这些数据标注公司的未来持悲观 (bearish) 态度。因为就像你说的，他们客户太少，在定价上没有太多筹码，而且这个领域又涌入了这么多人。

所以，尽管他们是世界上增长最快的公司之一，你还是觉得他们面前有挑战。

Chip Huyen: 我不确定我是否悲观。

我只是好奇。因为事情的发展总会超乎我的预料。

所以我想，也许这些公司拥有大量数据，也许他们能利用这些数据获得一些洞察，帮助他们保持领先地位，谁知道呢。

Lenny: 非常公允的回答。

评估 (Evals) 在 AI 开发中的重要性

Lenny: 好的，趁着这个话题，我想聊聊“评估” (evals)，这是本播客经常出现的一个话题。

这是这些公司分享的，AI 实验室真正需要的另一部分数据内容。

你能用最简单的方式解释一下什么是“评估” (eval) 吗？以及它如何帮助模型变得更智能？

Chip Huyen: 我认为人们在谈论评估时，面临两个截然不同的问题。

第一种是作为应用构建者 (app builder)。比如我有一个应用，一个聊天机器人 (chatbot)，很简单，我脑子里第一个想到的就是这个。

我想知道这个聊天机器人是好是坏。

所以我需要想出一种方法来评估这个聊天机器人。

另一种，我称之为“特定任务的评估设计” (task specific evol design)。

比如我是一个模型开发者，我想让我的模型更擅长创意写作 (curve writing)。

我就会想：OK，但我该如何衡量创意写作呢？

所以我需要有人来定义：OK，了解创意写作，思考什么让一个故事成为好故事，然后设计整个数据集 (data set) 和标准 (criteria) 来评估创意写作。

所以，我认为这更像是评估设计 (eval design)，这非常有趣。

制定标准，制定指南，告诉大家如何做，并且培训人们如何有效地做到这一点。

我想，在课程中，评估 (Evar) 真的非常有趣，因为它极具创造性。

我研究过人们构建的不同评估方式，感觉就像：哇，这一点都不枯燥。这超级超级有趣。

Lenny: 我们和 HML 的 Haml 与 Shrea 聊过一整期关于评估的话题。

他们谈论的也正是这个：为公司创建评估实际上非常有趣。

那么，让我们再深入一点。

网上有一种争论，我不知道这个争论有多激烈，但感觉人们花了很多时间思考这个问题：我们到底需不需要为 AI 产品做评估？

一些最好的公司说他们其实不怎么做评估，他们就靠“感觉” (vibes)。

他们就觉得：这个用起来顺吗？我能感觉到好坏。

对于 AI 应用（不是模型公司）来说，你对构建评估的重要性和评估技巧有什么看法？

Chip Huyen: 你不需要在所有事情上都做到绝对完美才能赢。

你只需要做到“足够好” (good enough)，并保持一致性就行了。

好吧，这不是我遵循的理念，但我合作过的足够多的公司向我证明了这一点。

为什么说公司不需要评估？假设你是一名高管，你想做一个新用例。

你开始构建它，它运行得还不错。

客户也还算满意。你没有确切的指标，但是流量在持续增长，人们看起来很高兴，不断在购买。

现在，有个工程师跑过来说：OK，我们需要为它做个评估 (eva)。

你就会想：好吧，我们需要在评估上投入多少精力？

他们可能会说：呃，也许需要两个工程师，花这么多时间，也许能改进一下。

你就会问：OK，我能从中获得多少预期的收益？

工程师可能会说：哦，也许你能把性能从 80% 提升到 82% 或者 85%。

你就会想：OK，但如果我把那两个工程师调去开发一个新功能，可能会给我带来多得多的改进。

所以，我认为其中一个原因是，有时人们觉得评估这事，OK，已经足够好了，别碰它了。

如果你在评估上花了大量精力，可能只会带来增量式的改进 (incremental improvement)；而把精力花在另一个用例上，也许靠“感觉”检查一下就足够好了。

所以，我认为这可能就是争论的焦点所在。

我确实认为，很多时候人们只是把事情推进到“OK，足够好了”的程度，就让它运行了。

但是，这当然也伴随着很多风险。因为如果你没有一个清晰的指标，你就无法很好地了解应用模型的表现。

它可能会做一些非常愚蠢的事情，或者给你造成损失，比如发生一些疯狂的事情。

所以，我确实认为评估非常重要。

如果你在规模化 (at scale) 运营，并且失败可能会带来灾难性后果，那么你确实需要对你呈现给用户的东西非常严苛 (tyrannical)。

你需要了解不同的失败模式 (failure modes)，知道哪里可能出错。

又或者，在一个领域里，这个功能是产品的核心竞争力 (competitive advantage)。

你想做到最好，你需要非常清楚地了解你现在处于什么位置，以及你和竞争对手的差距。

但如果它只是一个比较边缘的功能，OK，它对用户有帮助，那也许你不需要那么执着或严苛。

“OK，现在这样足够好了。”

如果它失败了，那就失败了。我知道这听起来很吓人，但……

我认为这都是关于“投资回报率” (return investment) 的问题。

我个人非常喜欢写评估，但我理解为什么有些人会选择不马上专注于评估，而是选择先去开发新功能。

Lenny: 非常务实的回答。

我理解的是：评估很棒，也很重要，尤其是当你规模化运营时。但要有所取舍 (pick your battles)。

你不需要为每个小功能都写评估。

Haml 和 Shrea 分享过，人们可能只需要为产品最重要的核心元素准备 5 到 7 个评估。

这是你所看到的吗？还是你看到在实际生产中，人们需要构建和使用的评估要多得多？

Chip Huyen: 我不认为评估有一个固定的数量。评估的目标 (goal) 是什么？

评估的目标是指导产品开发。

所以，你看重评估，是因为……我个人非常喜欢评估，因为它能帮你发现产品在哪些方面做得好的机会。

我经常看到这种情况：我们查看了评估数据，发现它在某个特定用户群体 (segment) 上表现非常差。

然后我们深入研究：到底出了什么问题？

结果发现，只是因为我们没有给他们传递正确的信息 (messaging)。

所以我们只需要专注于我们正在做的事情，就可以显著改善它。

所以，评估的数量真的取决于情况。

我见过一个产品有几百个不同的指标 (metrics)，人们都快疯了。

这是因为产品是通用的，有不同的……比如一个评估是关于真实性 (verity)，一个评估是关于用户敏感数据 (user sensitive data)，

另一个是关于长度，还有很多关于……

好吧，举个复杂点的例子：深度研究 (div research)。

假设你开发了一个应用，帮你做深度研究。

你给它一个提示，比如：请对 Lenny 的播客做一个全面的研究，帮我总结一份报告，分析他感兴趣的主题类型、哪种类型的视频能获得最多观看，或者他错过了哪些应该涵盖的主题。

对于这样的提示，你如何评估结果呢？

我不认为只有一个指标能搞定。

也许你需要……我记得有人做过一个基准测试 (benchmark)，他们找了 100 个专家，写了一大堆提示，然后去检查 AI 的所有答案。

这样做成本极高而且非常慢。

但如果换种方式……我和一个朋友聊过这个。

一种方式是：如何产出这个摘要 (summary) 结果？

首先，你需要收集信息。

要收集信息，你需要进行大量的搜索查询 (search queries)。

你收集搜索结果，然后对搜索结果进行聚合 (aggregate)。

然后你可能会说：OK，我还缺这个信息。你得走另一条路，再走另一条路，做另一个摘要。

所以，在这个过程中的每一步，你都需要评估。

你不需要做端到端的评估。

也许对于第一个搜索查询，你首先要看：OK，我写了 5 个搜索查询，我得看看这些搜索查询的质量如何？

它们是不是都彼此相似？

比如你搜了 5 次：“Lenny 播客”、“Lenny 播客上个月”、“Lenny 播客两个月前”，这没什么意思。

但如果查询的关键词更多样化 (diverse)……

然后再看搜索查询的结果。

假设你输入了“Lenny 播客数据标注”，它返回了 10 个结果。

然后你又输入了“Lenny 播客前沿实验室”，又返回了 10 个结果。

我可能会查看这些不同的网页，看它们有多少重叠 (overlapping)？

我们是兼顾了广度 (breath)（获取了很多页面），还是有了深度 (depth)？以及相关性 (relevance)？

因为我们可能会搜到一些与原始提示完全无关的查询结果。

所以我觉得，它的每一个方面都需要一种评估方式。

所以我不认为问题是“我该有多少个评估”，而是“我需要多少评估才能对我的应用性能有足够的覆盖 (coverage) 和高度的信心 (high confidence)”，并且帮助我理解它在哪些地方表现不佳，以便我能修复它。

Lenny: 没错。而且我听下来，尤其是对于最核心的用例，比如用户在你的产品中最常走的路径，是你要重点关注的地方。

Chip Huyen: 是的。

检索增强生成 (RAG) 解释

Lenny: 好的，我还有一个术语想聊聊，然后我们会换个方向。

RAG，人们经常看到这个词，RAG。它是什么意思？

Chip Huyen: RAG 代表“检索增强生成” (Retrieval Augmented Generations)。

它也不是专属于生成式 AI (JD AI) 的。

它的理念是，对于很多问题，我们需要上下文 (context) 才能回答。

我想它出现得挺早的，大概是 2017 年的论文。

当时有人发现，在很多问答 (question answering) 基准测试中，

如果你给模型提供了关于这个问题的（背景）信息，答案的质量会好得多。

所以他们做的就是，尝试从维基百科 (Wikipedia) 检索信息。

对于有疑问的主题，就去检索，然后把它放进上下文，再让模型回答，结果好多了。

我觉得这听起来是理所当然的 (no-brainer)，对吧？很明显嘛。

所以，我认为 RAG 最简单的理解就是：为模型提供相关的上下文，以便它能回答问题。

而这正是事情变得更有趣的地方。因为在传统上，刚开始时，RAG 主要处理的是文本 (text)。

我们讨论了很多如何准备数据，才能让模型有效地检索 (retrieve)。

比如，不是所有的东西都像维基百科页面那样。

维基百科页面内容很集中，你知道它都是关于某个主题的。

但很多时候，你拿到的文档非常长，而且它们的结构 (structures) 很奇怪。

比方说，你有一份关于 Lenny 播客的文档。

文档开头说：“从现在开始，‘播客’一词将指代 Lenny 的播客”。

假设将来有人问：“告诉我关于 Lenny 的工作”。

因为文档的其余部分没有“Lenny”这个词，你可能就不知道……你可能没法读完它。

而且这个文档太长了，被切分 (chunk) 成了不同的部分，第二部分没有“Lenny”这个词，所以你检索不到。

所以我必须找到一种处理数据的方法，确保它能检索到与查询相关的信息，即使这些信息可能没有立即显现出关联性。

于是人们想出各种办法，比如上下文视觉 (contextual visual)，

比如给每一个数据块 (chunk) 附加相关的元数据 (metadata) 或摘要 (summary)，让它能被检索到。

还有人用“假设性问题” (hypothetical questions)，这非常有趣。

比如对于一个文档块，我生成一堆这个文档块能回答的问题。

这样，当用户有一个查询时，系统就会看：OK，这个查询是否匹配这些假设性问题中的任何一个？

如果匹配，就能把它取出来 (fetch)。这是个很有趣的方法。

OK，在谈下一个话题之前，我必须强调：为 RAG 做数据准备 (data preparations) 极其重要。

我想说的是，在我见过的大多数公司里，他们的 RAG 解决方案性能的最大提升，来自于更好的数据准备，而不是来自于纠结使用哪个向量数据库 (better databases)。

数据库当然也很重要，你要关心延迟 (latency) 之类的问题，或者你是否有特定的访问模式，比如读密集 (read heavy) 还是写密集 (write heavy)，这当然重要。

但就纯粹的答案质量而言，数据准备绝对是完胜的。

Lenny: 当你提到“数据准备”时，能给个具体的例子让我们更真实地理解吗？

Chip Huyen: 就像我刚才提到的，你有很多数据块 (chunks)。

我们要考虑每个数据块应该多大。

因为，假设一个上下文，你想最大化……举个很简单的例子，你想检索 1000 个词。

如果每个数据块太长，

如果数据块很长，它就更有可能包含更多相关的元数据，所以你可能检索到更多。

但如果它太长了，比如你有 1000 个词的限制，而一个数据块就是 1000 个词，那你只能检索到一个数据块，这没什么用。

但如果它太短了，你也许能检索到更多相关信息，比如你可以检索到更广范围的文档和数据块。

但同时，数据块又太小了，无法包含足够的上下文信息。

所以你需要一个很好的数据块设计 (chunk design)，比如数据块应该多大。

你还要添加上下文信息，比如摘要、元数据、假设性问题。

有人告诉我，他们获得的一次巨大性能提升，是来自于把他们的数据重写 (rewriting) 成了“问答” (question answering) 格式。

比如他们有一个播客，他们不是简单地把播客内容切块，而是把它重构成：“这是一个问题，这是答案”。

他们生成了大量的这种格式，你也可以用 AI 来做这件事。

这是数据处理的一个例子。

我看到的另一个例子是，人们用 AI 来辅助处理特定的工具使用和文档 (documentations)。

我们写的很多文档，今天的很多文档，都是写给人读的。

但 AI 阅读和人类阅读是不同的。

因为作为人类，我们有常识 (common sense)，我们大概知道它在说什么。

或者说，人类专家拥有 AI 所不具备的上下文。

有人告诉我，他们做的一个重大改变是：假设你有一个函数，一个库 (library) 的文档。

这个库说：OK，这个函数的输出，可能是某个图表 (graph) 上的某个温度 (temperature)，值是 1、0 或 -1。

作为人类专家，你可能理解这个“1”在这个尺度 (scale) 下意味着什么。

但对于 AI 来说，它完全不理解这是什么意思。

所以他们实际上为 AI 增加了一个标注层 (annotation layer)，比如：OK，“温度等于 1”意味着这个，它与那边的那个尺度相关联。

他们做了所有这些数据处理，只是为了让 AI 更容易检索到相关信息来回答问题。

本集由 Persona 为您带来，这是一个可验证的身份平台 (verified identity platform)，帮助企业接纳 (onboard) 用户、打击欺诈 (fight fraud) 并建立信任 (build trust)。

我们在播客上谈论了很多 AI 的惊人进步，但这可能是一把双刃剑。

在每一个令人惊叹的时刻背后，都有欺诈者在利用同样的技术制造混乱：洗钱、盗用员工身份、冒充企业。

Persona 通过自动化的用户、企业和员工验证来帮助应对这些威胁。

无论你是想识别候选人欺诈、满足年龄限制，还是保护平台安全，Persona 都能帮助你以量身定制的方式验证用户。

最棒的是，Persona 能让你轻松了解你在和谁打交道，同时又不会给“好用户” (good users) 增加摩擦 (friction)。

这就是为什么像 Etsy、LinkedIn、Square 和 Lyft 这样的领先平台都信任 Persona 来保护他们的平台安全。

Persona 还为我的听众提供为期一整年、每月 500 次的免费服务。

只需访问

withpersona.com/lenny

即可开始。

网址是

withpersona.com/lenny

。再次感谢 Persona 对本集的赞助。

AI 工具采用的挑战

Lenny: 好的。你谈到了你如何与公司在这些事情上合作，包括他们的 AI 战略、AI 产品、如何构建、使用哪些工具等等。

我想在这里花点时间，因为很多公司在开发 AI 产品，但很多公司在开发过程中并不顺利。

我想就你从那些做得好的公司那里学到的经验，问几个问题。

一个是关于 AI 工具的采用 (adoption)，以及公司内部的普及情况。最近有很多讨论，关于 AI 的炒作。

数据显示，大多数公司尝试了一下，发现没什么效果，就停了。

所以这就让人觉得，也许这事儿没什么前景。

那么，在公司内部采用 AI 工具和 AI 技术方面，你看到了什么？

Chip Huyen: 对于公司内部的生成式 AI (gen AI)，我认为我看到了两种类型的工具。

一种是用于内部生产力 (internal productivity) 的。

比如编程工具、Slack 聊天机器人、

内部知识库。很多大型企业都有某种对模型 (model) 的封装 (wrapper)，但提供了访问权限，也许用了我们刚才谈到的不同类型的 RAG。

比如基于文本的 RAG。我还没谈到基于代理 (Agent) 的 RAG 或多模态 (multi-motor) RAG，但那确实是一个非常令人兴奋的领域。

总之，这基本上是为了让员工能够访问内部文档。

比如有人问：OK，我怀孕了，产假 (maternal or paternal) 政策是什么？

或者：我做了这个手术，医疗福利 (health benefit) 是否覆盖？

或者：我想面试，或者我想推荐我的朋友，流程是怎样的？

很多这类需求，都是通过内部聊天机器人来协助内部运营的。

另一类，是更多面向客户 (customer-facing) 的。

或者面向合作伙伴 (partner facing) 的。

客户支持 (customer support) 聊天机器人是一个大头。

如果你是一家连锁酒店，你可能会有一个预订 (booking) 聊天机器人，这个市场不知为何非常庞大。

有很多预订聊天机器人，我猜……我确实有这样一个理论：公司之所以追求很多应用，是因为他们无法衡量具体的产出 (outcome)。

但我觉得，预订或销售聊天机器人，结果非常清晰，对吧？

现在使用人工操作员的转化率 (conversion rate) 是多少？使用聊天机器人的转化率又是多少？

不知怎的，我觉得这是非常清晰的结果，公司更容易接受 (buy into) 这种解决方案。

所以很多公司都有这种面向客户的聊天机器人。

这就是另一类工具。

我认为，对于面向客户或外部的工具，

因为人们倾向于选择那些有明确结果的应用，

所以，是否采用它们，真的取决于他们是否看到了结果。

当然，这也不完美，因为有时候结果可能很糟糕，但这并不是因为这个应用或想法本身很差，可能只是因为构建它的过程不太好。

这很棘手。

对于内部工具的采用，比如内部生产力工具，这就变得棘手了。

我想说，很多公司，他们所谓的战略，通常有两个关键方面：

一个是“用例” (use cases)，第二个是“人才” (talent)。

你可能有很好的数据和很棒的用例，但你没有人才，你就做不成。

所以在生成式 AI (geni) 刚开始的时候，现在仍然是，我真的很佩服很多公司的一点是，

他们会说：OK，我们需要我们的员工非常了解 geni，具备很高的 AI 素养 (AI literate)。

他们是怎么做的呢？他们开始引入一堆工具给团队使用。

他们举办很多技能提升 (upskilling) 的研讨会 (workshops)，鼓励学习。

我认为这是非常非常好的一件事。他们也愿意花很多钱，

比如给员工订阅 ChatGPT，订阅 GitHub Copilot，让员工提高 AI 素养。

但另一方面，很多秘书会说：OK，我们在这个工具上花了很多钱，但我们没有看到……因为你可以看到使用率 (usage)，

但人们似乎并没有那么频繁地使用它们。问题出在哪里？

所以，是的，我认为这很棘手。

衡量生产力的挑战

Lenny: 是的，你认为问题出在哪里？是因为他们不知道怎么用吗？

你认为这里的差距是什么？你觉得我们会达到一个因为 AI，工作方式完全改变的阶段吗？

Chip Huyen: 对很多公司来说，最主要的问题是：很难衡量生产力 (productivity) 的提升。

我和很多人聊过，他们会说，首先，以编程为例。

很多公司都在使用编程助手 (coding agents) 或 AI 辅助编程。

我问他们：你觉得这对你的生产力有帮助吗？

很多时候，答案都非常含糊 (handwavy)。

就像：OK，我感觉好多了。

OK，因为我们有了更多的 PR (Pull Requests)，我们看到了更多的代码。

然后他们会立刻纠正我：但是，代码行数 (number of life code) 显然不是一个好指标。

所以，这真的非常非常棘手。

还有一件有趣的事，

我确实会建议人们去问他们的经理，因为我通常是和 VP 级别的人合作，他们手下有多个团队。

我让他们去问经理们：

你是宁愿给团队里的每个人都订阅昂贵的编程助手 (coding agent)，还是愿意多一个招聘名额 (headcount)？

几乎所有的经理都会说要招聘名额。

但如果你去问 VP 级别的人，或者管理很多团队的人，他们会说他们想要 AI 助手 (AI assistant)。

原因是，人们会说：OK，因为作为经理，你还在成长，你还没有达到管理成百上千人的级别。

所以对你来说，多一个人力编制 (HR hash count) 是件大事。

你想要它，不是出于生产力的原因，而是因为你就是想手下有更多的人。

而对于高管来说，你可能更关心业务指标 (business metrics)。

所以你才会真正思考什么能驱动你的生产力指标。

“三分桶”测试 (The three-bucket test)

Chip Huyen: 所以这很棘手。

我认为，关于生产力的问题，

我不确定是否根本上是某些人生产力更高，可能只是我们没有一个好方法来衡量生产力的提高。

另一方面，差异也非常大。

人们确实告诉我，他们注意到员工对 AI 辅助工具有不同的反应，可以分为几类 (buckets)。

我还是拿编程来举例，因为它很重要，也更容易理解。

我收到了不同的报告。

一个团队的人告诉我：在他所有的工程师中，他认为高级工程师 (senior engineers) 得到的产出最多，生产力提升最大。

因为，OK，那个人非常有趣。

他把他的团队分成了三个“桶” (bucket)，当然他没有告诉团队成员。

他说：OK，这是目前表现最好的、表现平平的、和表现最差的。

然后他们做了一个随机试验 (randomized trial)。

他们给每个组里的一半人开放了某个工具（比如 Cursor）的权限。

然后他们观察了一段时间，发现了一件有趣的事：

在他看来（他非常了解自己的团队），性能提升 (performance boost) 最大的那个组，是高级工程师，也就是表现最好的 (highest performing) 那个组。

所以，表现最好的工程师从中获得了最大的收益。

第二组是表现平平的 (average performing) 那组。

所以他的观点是：OK，表现最好的工程师，他们也更积极主动 (proactive)，他们知道如何解决问题。

所以 AI 帮助他们更好地解决了问题。

而那些表现最差的人，他们根本不怎么关心工作。

所以，他们更容易进入“自动驾驶” (autopilot) 状态，让 AI 生成一些糟糕的代码，然后就那么用了。

他也不知道该拿这个怎么办。

然而，另一家公司告诉我：实际上，高级工程师是最抵制 (resistant) 使用 AI 工具的人。

因为他们会说：OK，但是 AI……因为他们更有主见 (opinionated)，标准也更高，他们会说：AI 生成的代码太烂了 (sucks)。

所以他们非常抵触使用这些工具。

所以我也不知道。我还没法完全调和 (reconcile) 这些截然不同的报告。

Lenny: 这太有趣了。我确认一下我听到的故事：

你合作过的一家公司，在他们的工程团队中做了一个“三分桶”测试 (three bucket test)。

他们把工程师分成了三组：表现最好的、中等的和最差的。

然后给他们中的一部分人……他们是给了一部分人 Cursor 吗？他们用的是什么工具？

Chip Huyen: 是 Cursor。我想当时是 Cursor。

Lenny: 酷。所以……

Chip Huyen: 我没有和他们合作。这更像是我朋友的公司。

Lenny: 好的，朋友的公司。那么，他们是给了一半表现好的工程师 Cursor，另一半没有吗？他们是怎么分的？

Chip Huyen: 是的，他们给了整个公司的一半人权限，但保证了每个桶里都有一半人拿到。

Lenny: 是的。然后他们观察了生产力的差异。

我明白了。他们是怎么做到的？

就是：OK，你用 Cursor，你不用。是这样吗？太有趣了。

Chip Huyen: 是的，我也不清楚具体的执行机制。

但我对他们能做一个随机试验 (randomized trial) 印象深刻。

Lenny: 这太酷了。这个工程团队有多大？大概几百人？

Chip Huyen: 没那么大。大概 30 到 40 人吧。

Lenny: 好的。哇。

所以他们发现，表现最好的工程师从 AI 工具中获益最多。

其次是中等水平的工程师，获益最少的是表现最差的。

Chip Huyen: 好的，但也并非所有地方都一样。

不同的公司，情况不同。

工程角色的未来

Lenny: 是的。就像你分享的另一个例子，在某个公司，高级工程师最抵触改变他们的工作方式，这我能理解。

我确实觉得，现在除了机器学习 (ML) 研究员和像你这样的 AI 研究员之外，最有价值的人就是高级工程师了。

因为感觉上，初级工程师 (junior engineers) 的很多工作现在都可以被 AI 完成。

但是，一个真正懂行、理解系统如何大规模运行的工程师，如果再配上 AI 工具，就好像有了无数的初级工程师在听他调遣，这感觉是一种极其有价值和强大的资产。

Chip Huyen: 是的。我非常欣赏……你在公司里会看到，我们很欣赏那些对整个系统有很好理解、具备良好问题解决能力、能够从全局 (holistically) 而非局部 (locally) 思考的工程师。

我看到一家公司，他们告诉我，他们现在的工作方式完全不同了。

他们重组 (restructured) 了工程组织架构。

他们让更多的高级工程师去做 PR (Pull Request) 审查 (review)。

因为他们倾向于……他们会去编写指南 (guidelines)，比如什么是好的工程实践 (engineering practices)，

流程应该是什么样的。

他们会制定很多关于如何高效工作的流程。

然后他们让更多的初级工程师去生产代码 (produce code)，提交 PR，而高级工程师则更多地负责审查。

我认为这可能是在为未来做准备。

另一家公司也告诉了我类似的情况。

他们似乎在为未来做准备——未来他们可能只需要一小群非常非常强大的工程师来创建流程和审查代码，以确保其能投入生产 (production)。

而他们让 AI 或者初级工程师去生产代码。

但问题是：一个人如何才能成为“非常强大”的工程师呢？

Lenny: 没错，没错。

Chip Huyen: 我不知道这个过程……我在思考……

Lenny: 没人思考这个问题。这只是个…… 10 年、20 年后我们可能就不再有这个问题了。

可能再也没有工程师了，因为没人雇佣初级工程师了。

不过我也可以说，现在的初级工程师，那些刚接触计算机科学 (computer science) 的人，他们是 AI 原住民 (AI native)。

理论上，你可以说，如果他们有好奇心，而不是把学习和思考外包 (delegating) 给 AI，而是真正利用 AI 来学习如何写好代码和正确架构 (architect)，

他们未来会成为最成功的工程师。

Chip Huyen: 我认为你提到的“学习如何架构”，

我把它归类为“系统思维” (system thinking)。我确实认为这是一种非常重要的技能。

因为我认为 AI 可以自动化 (automate) 很多“被摧毁的” (destroy the skills) 技能，但是，知道如何将这些技能组合起来解决一个问题，这非常难。

有一个网络研讨会 (webinar)，是 Mer Sami（他是我最喜欢的教授之一，他是 Stanford 计算机系课程的主席）和 Andrew（吴恩达，他当然是 AI 领域的传奇人物）之间的。

我们花了很多时间思考计算机教育 (CIS educations)：

现在学生到底该学什么？AI 编程？

Sami 说了一句非常有趣的话。

他说，很多人认为计算机 (CS) 就是关于编程 (coding)，但其实不是。

编程只是实现目的的手段 (means to an end)。

计算机是关于“系统思维”，是关于用编程去解决实际问题。

而解决问题 (problem solving) 的能力永远不会过时。

因为，当 AI 能自动化更多东西时，问题只会变得更庞大。

但是，理解问题根源、设计逐步解决方案的过程，将永远存在。

举个例子，

我其实在用 AI 调试 (debugging) 时遇到了很多问题。

我不知道你是否经常用 AI 编程，但我注意到，我的朋友们也看到了：

当你有一个非常清晰、定义明确 (welldefy) 的任务时，它做得很好。

比如写文档、修复特定功能，或者从零开始 (from scratch) 构建一个应用，只要不涉及与大型现有代码库的交互。

但如果任务稍微复杂一点，

比如需要与很多组件 (components) 交互，它通常就做得不那么好了。

例如，我当时在用 AI 部署 (deploy) 一个应用。

我正在测试一个新的托管服务 (hosting service)，我不太熟悉它。

我当时想，OK，AI 通常能给我……我认为 AI 带给我的是尝试新工具的信心。

在没有 AI 之前，尝试新工具要从头看很多文档。

但现在我想，OK，试试看，边试边学。

我测试这个新服务时，它一直报一个 Bug，非常非常烦人。

我让 AI 助手帮我修复它。

它不停地给我建议：也许改改环境变量 (environment variable)，也许改改代码，也许把这个函数换成那个函数，也许改改语言，也许它不能很好地处理 JavaScript……我不知道。

但就是没用。

最后我受不了了：OK，就这样吧。我自己去读文档 (documentation)，看看问题到底出在哪。

结果发现：

我所在的套餐等级 (tier) 不对，我想要的功能在这个套餐等级里不提供。

所以我就想，OK，AI 助手的问题在于，它试图从一个完全不同的组件（代码）去修复问题，而问题出在另一个组件（套餐等级）上。

所以我在想，OK，你需要理解不同组件是如何协同工作的，以及问题的根源可能在哪里。

你需要有一个全局视野 (holistic view)。

这也让我思考：我们该如何教 AI 具备系统思维？

我想，也许可以让所有人类专家都来构建脚手架 (scaffold)，告诉它：OK，对于这类问题，去检查这个、检查那个、再检查那个。

这可能是一种方式。

但这也让我想：我们该如何教人类系统思维？

所以，是的，我认为这是一项非常有趣的、非常重要的技能。

Lenny: 这和 Brett Taylor 在播客上分享的见解完全一样。

他是 Sierra 的联合创始人，开发了 Google Maps，曾是 Salesforce 的 CEO，还创立了 Quip 等等。

我问他：人们还应该学编程吗？

他的观点和你完全一样：

上计算机科学课，不是为了学习 Java 和 Python，而是为了学习系统 (systems) 是如何工作的，代码是如何运行的，软件是如何广泛运作的，而不仅仅是“这是一个实现某个功能的函数”。

机器学习 (ML) 工程师 vs AI 工程师

Lenny: 有一件事我想帮大家理清：你写了一本叫《AI 工程》(AI Engineering) 的书，这本书本质上是在帮助人们理解这个新类型的工程师。

你用一种非常简单的方式，区分了“机器学习工程师” (ML engineer) 和“AI 工程师” (AI engineer)。

这对现在的产品经理 (product managers) 也有很好的类比：AI 产品经理 vs 非 AI 产品经理。

你的描述是（如果我遗漏了请补充）：

ML 工程师自己构建模型 (models)。

AI 工程师使用现有的模型来构建产品 (products)。

还有什么要补充的吗？

Chip Huyen: 我写书时真正不喜欢的一件事是，你必须去下定义 (defy)。

而且我认为没有哪个定义是完美的，因为总会有边缘情况 (edge cases)。

但是，总的来说，我认为是这样的。

这就像“AI 即服务” (AI as a service)，当你有人为你构建了模型，而且基础模型的性能 (performance) 已经相当不错了。

这使得人们可以：OK，现在我想把 AI 集成到我的产品中，我不需要去学什么是……（虽然懂了会很有帮助）。

它让那些想用 AI 构建产品的人的入门门槛 (entry barrier) 变得非常低。

与此同时，AI 的能力 (capabilities) 又如此强大，

这也增加了 AI 应用的可能性和类型。

所以，入门门槛超级低，而对 AI 应用的需求又超级大。

这感觉非常非常令人兴奋，它打开了一个充满可能性的全新世界。

Lenny: 没错。就像你现在不需要花时间去构建这个“AI 大脑”了，你可以直接用它来做事。

这是一个巨大的解放 (unlock)。

展望未来：AI 的影响

Lenny: 好的，也许这是一个至关重要的问题。你看到了很多什么在起作用、什么没用、以及未来趋势。

我很好奇，如果你展望未来两三年，

你认为情况会怎样？你认为构建产品的方式会有什么不同？

你认为公司的工作方式会有什么不同？

如果让你说说未来几年公司工作方式上可能发生的最大变化，会是什么？

Chip Huyen: 我认为很多组织 (organizations) 的行动并没有那么快。

但与此同时，他们的行动又比我预期的要快。

这可能还是因为偏见 (biased)，我不会和那些毫不在乎的“恐龙”公司合作。

很多来找我的高管都非常有前瞻性 (forward-looking)。

所以也许我的看法有偏见，我倾向于那些行动迅速的组织。

我看到的一个巨大变化是组织结构 (organizational structure) 上的。

我认为，价值被放在了……

以前，我们有很多脱节 (disjointed) 的团队。

我们有非常清晰的工程团队、产品团队。

但问题是：谁应该来写评估 (Eva)？

谁应该对指标 (matrix) 负责？

结果是，评估不是一个独立的问题，它是一个系统 (system) 问题。

因为你需要研究不同的组件，看它们如何相互作用。

你需要了解用户行为 (user behaviors)，因为你需要知道用户关心什么，这样你才能……你才能在评估中反映用户的关切。

所有这些，你都得从……你得研究不同的组件架构 (architectures)、设置护栏 (guardrails) 等等。

这是工程问题，但理解用户，这又是产品 (product) 问题。

所以，因为这些事情都极其重要，它把产品团队、工程团队，甚至市场团队、用户获取 (user acquisition) 团队，都紧密地联系在了一起。

所以，在某种程度上，人们正在重构组织，让以前各自为政的职能 (functions) 之间有更多的交流。

另一件事是，我也看到团队

当然，在思考未来几年什么可以被自动化 (automated)，什么不能。

我看到人们已经在“砍掉” (shedding)……其实想想有点吓人，

但团队告诉我：OK，这是我们私下说的，但我们已经裁掉了 (got rid of) 这些职能。

比如很多以前外包 (outsource) 的事情。

传统上，企业会把非核心 (core) 的业务外包出去，这些业务可以用非……可以用更系统化 (systematized) 的方式完成。

有了 AI，你实际上可以自动化其中很多工作。

这也导致了（职能的）分离 (separation)，人们更多地思考：初级工程师的价值是什么？高级工程师的价值是什么？你该如何为此重组工程团队？

所以我确实认为，

对于成功的组织来说，一件事是人们在不断地调兵遣将 (moving pieces around)，思考用例 (use cases)，

是否需要孵化 (spin out) 新的用例？谁来领导这个新项目？

这是一个巨大的变化。

在 AI 方面，另一件事是，

我不确定这有多准确，

我想我也倾向于认为这是有道理的，那就是：

基础模型 (base models)，我们可能还没有完全达到极限 (max out)，但是，我们不太可能再看到那种非常非常强大、强大到疯狂的模型了。

你还记得吗？我们有了 GBT，然后是 GB2，这是一个巨大的飞跃，量级上的提升。

然后是 GB3，大得多；GB4，又大得多。

当然，我们会有 GBD 5，但是 GBD 5 会像以前那样，是一个巨大的飞跃 (step jump) 吗？

我认为这是有争议的 (debatable)。

所以，我认为我们已经到了一个点：基础模型的性能提升，不会再像过去三年那样令人瞠目结舌 (mind-blowing) 了。

所以我认为，我们将看到的很多改进，会发生在后训练 (post training) 阶段，发生在应用构建 (application building) 阶段。

是的，我认为这会是我看到很多改进的地方。

比如非常有趣的“多模态” (multimodality)。

我们已经看到了很多基于文本 (text based) 的应用，

但我认为在音频 (audio)、视频 (videos) 方面有很多用例，

非常非常令人兴奋。

我认为音频领域还没有我们想象的那么成熟。

因为我确实和几家语音 (voice) 创业公司合作过，当我和他们谈论语音时，那完全是另一码事 (different beast)。

比如聊天机器人 (chatbot)，我们从文本聊天机器人转向语音聊天机器人，

考虑的因素完全不同了。

因为对于语音聊天机器人，你需要考虑延迟 (latency)，因为它涉及多个步骤。

首先，从语音到文本 (voice to text)，然后文本到文本（模型处理），然后文本问题到文本答案，然后再从文本到语音 (text to voice) 答案。

这中间有很多跳跃 (hops)，延迟变得非常重要。

还有一个问题：怎样才能让你听起来自然 (natural)？

例如，人们认为……在 AI 和人类之间，

当人类互相交谈时，如果我正在说话，你试图打断我，比如：“呃，Chip，那个……”，

我可能会停下来，听你把话说完。

但有时，我也许只会说个词，比如“嗯哼”，表示我听到了，但我不会停，我会继续说。

所以，关于“强行打断” (force interruption) 的问题，比如：我到底该不该停？

这是一个大问题。以及，什么被认为是自然的对话？

还有监管 (regulations) 的问题。

因为很多时候，人们想构建听起来像人类的 AI 语音聊天机器人，试图“欺骗” (trick) 用户，让他们以为在和人交谈。

但这也可能面临潜在的监管，要求你必须向用户披露 (disclose)，他们是在和人类对话，还是在和 AI 对话。

所以，我认为这个领域，

还没有像你想的那么成熟，

但这也不完全是 AI 基础模型 (foundation model) 的问题。

比如“人类打断检测” (human interruption detection) 实际上是一个经典的机器学习问题。

这是一个不同的框架 (framing)，但你可以为此训练一个分类器 (classifier)。

或者，比如延迟问题，这实际上是一个巨大的工程 (engineering) 挑战，而不是 AI 挑战。

当然，它也可以是一个 AI 挑战，因为人们在尝试构建“语音到语音” (voice-to-voice) 模型。

这样就不需要先把我的声音转录 (transcribe) 成文本，然后让模型生成文本答案，再让另一个模型把文本转成语音。

你直接就是语音进，语音出。

这是有人在研究的方向，但这非常难。

所以，是的，即便是音频，我都觉得比视频简单。

因为视频同时有图像和声音，那已经非常难了。

所以我认为那个领域还有很多挑战。

Lenny: 这一系列预测太棒了。我来快速复述一下：

你预测未来几年工作方式会发生的变化（这些变化与我在播客上的许多对话都产生了共鸣，

所以这只是再次印证了未来的趋势）：

第一，不同职能 (functions) 之间的界限变得模糊 (blurring)。不再是设计、工程各管一摊，每个人都会做很多不同的事情。

第二，更多的工作被代理 (agents) 和 AI 工具自动化，理论上，生产力会提高。

第三，重点从预训练模型转向后训练、微调 (fine-tuning) 等。因为就像你说的，模型的智能化速度可能在放缓。

（不过，我想提醒听众去听听我和 Anthropic 联合创始人的那期节目，

他提了一个很好的观点：我们身处指数级 (exponentials) 增长中时，是很难感知到的。

而且，现在模型发布得更频繁了，所以我们可能没有注意到它们之间的差异，因为它们发生得太快了。而不像 GPT-3 是在 JPT-2 之后大概一年才发布的。）

所以，也许是真的（放缓了），也许不是。

第四点，你提到了多模态 (multimodal)，投资于多模态体验。

我迫不及待地想看到 JPT 语音模式在“打断” (interruption) 方面做得更好，就像你说的。

我正和它说着话，旁边有人发出一点声音，它就：“OK”，然后就停了。

这太烦人了。

我很惊讶我们家里现在还没有更好的语音助手 (voice assistant)。

Chip Huyen: 我一直在测试很多产品。我总是希望：哦天呐，Zach 也许就是那个（最好的）。

但结果，我不知道试了多少个，最后都放弃了，因为它们没那么好。

Lenny: 我觉得快了。我听说 Anthropic 正在和某家公司合作，不知道发布了没有。

模型能力 (Model capabilities) vs 感知性能 (Perceived performance)

Chip Huyen: 是的，我想回到你刚才提到的，你那位 Anthropic 的嘉宾提到的关于性能 (performance) 提升的观点。

我认为这里有一个很大的转变。

我认为，“模型的基础能力” (model based capability)（我指的不是预训练模型）和“感知性能” (perceived performance) 是有区别的。

比如，有一台机器在思考……你熟悉“测试时计算” (test time compute) 这个词吗？

Lenny: 好像不太熟。请解释一下。

Chip Huyen: 它的理念是：OK，你有一笔固定的计算资源 (compute)。

你要么花很多计算资源在预训练 (pre-shooting) 或训练模型上，

然后花一些计算资源……预训练和后训练 (post training) 的计算资源比例，在不同的实验室之间差异巨大。

然后，你还要花计算资源在“推理” (inference) 上。

当我训练好一个模型，现在要把它提供给用户。

我输入一个问题或提示，它要进行推理 (inference)，这需要计算资源。

我感觉，关于“我应该在预训练、微调还是推理上投入更多计算资源？”的讨论……

人们发现，“测试时计算” (test time compute)，

也就是在推理上花费更多的计算资源，

这个策略，即在推理时分配更多的计算资源，会带来更好的性能。

这是怎么做到的呢？

比方说，你有一个数学问题。

也许我不是只生成一个答案，我可以生成四个不同的答案。

然后说：OK，根据某个标准，哪个是最好的。

或者：OK，我有四个答案，其中三个说 42，一个说 20。

OK，三个都同意 (agreement)，那答案就应该是 42。

所以人们会生成很多个答案。

另一种方式是，很多时候，比如在推理 (reasoning)、思考 (thinking) 时，

人们会让模型生成更多的“思考 Token” (thickening tokens)。

在给出最终答案之前，花更多时间思考。

这需要更多的计算资源，但也会带来更好、更优的性能。

所以，从用户的角度来看，

当模型花更多时间去探索不同的潜在答案、思考得更久时，

它可以给你一个好得多的最终答案，但基础模型 (base model) 本身并没有改变。

Lenny: 太棒了。这说得通。

是的，这绝对是对 Ben Mann 观点的一个很好的呼应。

闪电问答 (Lightning round) 和最后总结

Lenny: 好的，Chip，我们聊了很多。我想了解的东西都了解了，甚至更多。

在我们进入激动人心的“闪电问答” (lightning round) 环节之前，你还有什么想分享的，或者想留给听众的吗？

Chip Huyen: 我确实和几家公司合作过，他们想让员工提出创意 (ideas)。

关于什么是更好的战略，有一个很大的争论：

应该是自上而下 (top down) 还是自下而上 (bottom up)？

是应该由高管提出一两个“杀手级用例” (killer use case)，然后所有人集中资源去做？

还是应该让工程师、产品经理和那些聪明人自己提出创意？

我认为是两者的结合 (mixture of both)。

所以有些公司会说：OK，我们雇了很多聪明人，让我们看看他们能想出什么。

他们会组织黑客马拉松 (hackathons) 或者内部挑战赛，让人们去开发产品。

我注意到的一件事是，很多人根本不知道该做什么。

这让我很震惊。

为什么？我感觉我们现在正处于某种“创意危机” (idea crisis) 之中。

我们拥有所有这些非常酷的工具，它们能帮你从零开始做任何事。

它可以帮你设计、帮你写代码、帮你建网站。

所以理论上，我们应该能看到更多的成果，但与此同时，人们好像被卡住了，他们不知道该做什么。

我认为，这可能在很大程度上与社会的期望 (society expectations) 有关。

因为我们已经进入了这个“专业化” (specializations) 的阶段。

人们被高度专业化，被要求专注于把一件事情做得非常好，而不是关注大局 (big picture)。

当我们没有大局观时，就很难想出该做什么的创意。

所以，当我和这家公司合作举办黑客马拉松时，我们确实制定了一份“如何想出创意”的指南。

我们通常的想法是：OK，一个技巧是：回顾你过去一周 (last week)。

花一周时间，留意你在做什么，以及什么让你感到沮丧 (frustrate)。

当有事情让你沮丧时，想一想：

我们能做点什么吗？能不能用一种不同的方式来做，让它不再令人沮丧？

你可以和别人交流，交换笔记或团队经验。

如果你看到了共同的 (common) 沮丧点，也许这就是你可以考虑去构建的东西。

所以，我觉得，

留意我们的工作方式，

思考如何能做得更好，不断提问，

然后构建一些东西来解决这些沮丧点，

这是学习和采用 AI 的一个好方法。

Lenny: 我想人们在打开那些 Vibe 编程工具时，一定也感受过你所描述的：你可以描述任何你想要的东西。

我就会想：我不知道，我到底想要什么？

我喜欢你这个非常具体可行的建议：注意那些让你沮B丧的事情。

举个例子，我刚用 Vibe Coded 做了一个很酷的小应用。

我当时在 Google Docs 里写一篇周报文章，我从截屏什么的粘贴了很多图片到 Google Doc 里。

然后我忘了：哦，你没法把图片从 Google Docs 里拿出来。

这就像“加州旅馆” (Hotel California) 一样，你可以把东西粘进去，但很难把图片再拿出来。

所以我去了那些 VCode 工具，做了一个应用：我给它一个 Google Doc 的 URL，它就能让我自动下载所有的图片。

效果非常好。它还把它做得非常可爱。

我会在播客笔记 (show notes) 里放上链接。

Chip Huyen: 哦，我很想看看。

我非常看好 (bullish) 用 AI 来创建“微型工具” (micro tools)，就是那些能让你的生活轻松一点点的小东西。

Lenny: 100% 同意。我觉得这是人们使用这些工具的主要方式之一，就是解决他们那些小众 (niche) 的问题。

好了，Chip，我们到了激动人心的闪电问答环节。

我有五个问题。准备好了吗？

Chip Huyen: 嗯，随时准备着。不，不，这取决于问题有多难。

Lenny: 每个嘉宾的问题都非常一致。

所以，我猜你以前听过。

第一个问题：你最常向他人推荐的两三本书是什么？

Chip Huyen: 哦，我真的很怕推荐书。

因为我觉得一个人该读什么书，真的取决于他们想要什么、他们处于人生的什么阶段，以及他们想去哪里。

但有几本书，我确实认为它们改变了我的思维方式和看待世界的方式。

一本是《自私的基因》 (The Selfish Gene)。

它让我理解……它实际上帮我解决了一个问题：我是否想要孩子。

因为它让你更理解……

我们很多的机能、我们的运作方式，都是我们基因 (genes) 的功能。

而基因只想做一件事，那就是繁殖 (procreate)。

所以，在某种程度上……但我喜欢这本书还提出了另一件事：

每个人都想永生 (live forever)，对吧？

也许不是有意识地 (consciously)，但潜意识里 (subconsciously) 我们是这么想的。

书里说了两种方式：一种是通过基因，基因想要永远延续下去。

另一种是……我认为是“模因” (meme) 这个概念。

如果你有一些想法 (ideas) 流传于世，并且持续了很长时间，这就是你“活下去” (live on) 的方式。

我知道这听起来有点抽象 (abstract)，但我觉得非常有趣。

另一本我非常非常喜欢的书，是……是新加坡前领导人写的，

他被称为“新加坡国父” (father of Singapore)，李光耀 (Lee Kuan Yew)，我不确定书名是什么……

他就是那个带领新加坡……他把新加坡从一个第三世界国家，在 25 年内变成了一个第一世界 (forceful) 国家。

我从未见过任何一个国家领导人，花这么多精力去灌输他关于如何建设国家 (build a country) 的思想。

他谈论了很多关于公共政策 (public policy) 的问题，比如如何制定政策来鼓励人们做对国家有利的正确事情。

也谈到了外交事务 (foreign affairs)、外交政策，比如国家与其他国家的关系。

这是一本非常好的书，能让你思考“系统思维” (system thinking)。

但这是一种不同的系统——国家。这是我们大多数人一生中都没有机会去试验 (experiment) 的。

所以了解一下这个很有好处。

Lenny: 第二本书叫什么名字？

Chip Huyen: 好像叫《从第三世界到第一世界》 (From Third to First World)。我想我这里有。

Lenny: 没错，在这儿。

展示一下。太棒了。我一定要读那本。这是个非常好的建议。

我听过很多关于他的影响力的故事，也在 Twitter 上看过很多他的视频，都是他关于如何建立一个繁荣 (thriving) 社会的真知灼见。

Chip Huyen: 真是难以置信，他怎么有时间写这么厚一本书？太疯狂了。

Lenny: 那是 Claude，请总结一下。开个玩笑。

顺便说一句，《自私的基因》我也超爱。那真是个好选择。

那是一本被低估 (under the radar) 的书，它也真的改变了我看世界的方式。非常好的选择。

好的，下一个问题。你最近有没有特别喜欢的电影或电视剧？

Chip Huyen: 我看了很多电影和电视剧，算是做研究 (research)。

因为我正在写我的第一部小说 (novel)，最近刚卖掉了版权。

我很好奇什么能让……这是一部戏剧 (drama)，不是科幻 (science fictions)，也不是科技圈人士常读的那种。

我知道这很……有点出人意料 (out of the left field)。

所以，我通过看剧来研究：什么样的故事会变得流行？试着去理解那些套路 (trope) 之类的。

所以我不知道观众会不会……

Lenny: 哪一部？哪一部让你在写作上有所收获？

Chip Huyen: 我觉得是《延禧攻略》 (Yami Palace)，一部中国电视剧。

Lenny: 酷。好的，这个播客上还没人提过。

好的，下一个问题。你有没有什么人生格言 (life motto)，在你处理工作或生活中的困难时，会经常想到或拿来提醒自己的？

Chip Huyen: 这听起来可能非常虚无主义 (nihilist)。

我想是：“归根结底，一切都没那么重要” (in the end, nothing really matters)。

我通常会想，从宏大的尺度 (grand scheme) 来看，比如十亿年后，

什么都不会……没有人会记得。

（OK，有人可能会反驳我这一点。）

所以我的理论是：十亿年后，我们谁都不会存在了。

所以，无论我们做了什么乱七八糟、疯狂的事情，或者我们做得有多糟糕，

我是说，没人会记得，不会有人在那里记得。

我认为，在某种程度上，这听起来很吓人，但它又非常使人解脱 (liberating)。

它让我觉得：OK，那就去试试吧。

这有什么关系呢？

{{userData.name}}已认证