内容概要
在本期《认知革命》(The Cognitive Revolution) 节目中,主持人 Lenny Rachitsky 采访了 Surge AI 的创始人兼 CEO Edwin Chen。Surge AI 是一家数据标注公司,已悄然成为生成式 AI 繁荣的基石。Chen 探讨了 Surge AI 如何另辟蹊径,依靠一支规模虽小但完全自力更生 (Bootstrapped) 的团队实现了 10 亿美元的营收(此处指达到了独角兽级别的业务规模),挑战了典型的硅谷增长模式。对话涵盖了高质量人类数据在训练 Claude 和 ChatGPT 等模型中的关键作用、当前 AI 基准测试 (Benchmarks) 的局限性,以及强化学习环境的未来。Chen 还分享了他关于 AI 目标函数将如何重塑人类未来的哲学观点。
目录
-
Edwin Chen 简介
-
AI 在商业效率中的角色
-
打造一家反传统的公司
-
Surge AI 业务详解
-
高质量数据的重要性
-
Claude Code 如何保持领先
-
Edwin 对基准测试 (Benchmarks) 的质疑
-
AGI 时间线与行业趋势
-
硅谷的运作机器
-
强化学习与未来的 AI 训练
-
理解模型轨迹 (Trajectories)
-
模型已经及将如何进化
-
适应行业需求
-
Surge 的研究方法
-
对未来几年 AI 的预测
-
AI 领域被低估和被高估的事物
-
创立 Surge AI 的故事
-
快问快答与结语
Edwin Chen 简介
Lenny Rachitsky: 你们在不到四年的时间里,仅凭 60 到 70 人的团队,营收就达到了 10 亿美元。你们完全是白手起家,没有筹集任何风险投资 (VC) 资金。我不相信以前有人做到过这一点。
Edwin Chen: 我们基本上不想玩硅谷的那套游戏。我一直觉得那很荒谬。我曾在许多大型科技公司工作,总觉得即便裁掉 90% 的人,我们反而会跑得更快,因为最优秀的人才就不会被各种琐事分心。所以当我们创办 Surge 时,我们想完全换一种方式,建立一支超小型、超精英的团队。
Lenny Rachitsky: 你们目前绝对是最成功的数据公司。
Edwin Chen: 我们本质上是在教 AI 模型什么是好,什么是坏。人们不理解这个领域的“质量”意味着什么。他们认为只要投入大量人力就能获得好数据,这完全是错的。
对于普通人来说,感觉这些模型并没有变聪明多少。在过去的一年里,我不断意识到,公司的价值观将塑造模型。前几天我让 Claude 帮我起草一封邮件,30 分钟后,它确实写出了一封完美的邮件,我也发送了。但我意识到,我花了 30 分钟做了一件根本无关紧要的事情。
如果你可以选择完美的模型行为,你会想要哪种?你是想要一个说“你是绝对正确的,这封邮件肯定还有 20 种改进方法”,然后继续迭代 50 次的模型?还是想要一个优化你的时间和效率,直接说“不,你需要停下来。你的邮件很棒,发出去然后继续做别的事”的模型?
Lenny Rachitsky: 你有一个很犀利的观点,认为许多实验室正在将 AGI 推向错误的方向。
Edwin Chen: 我担心的是,我们并没有构建能够真正推动人类物种进步的 AI——比如治愈癌症、解决贫困、理解宇宙——反而在优化 AI 垃圾内容 (AI slop)。我们实际上是在为那些在杂货店买小报的人优化模型。我们在教模型追逐多巴胺,而不是真理。
Lenny Rachitsky: 今天的嘉宾是 Surge AI 的创始人兼 CEO Edwin Chen。Edwin 是一位非凡的 CEO,Surge 也是一家非凡的公司。他们是领先的 AI 数据公司,为每一个前沿 AI 实验室的训练提供动力。他们也是有史以来最快达到 10 亿美元营收的公司,仅在成立 4 年后就实现了这一目标,员工人数不到 100 人,而且完全自力更生,从未筹集过一美元的风投资金,从第一天起就实现了盈利。
正如你在对话中听到的,Edwin 对如何建立一家伟大的公司以及如何构建真正对人类有益的 AI 有着非常不同的看法。我非常喜欢这次谈话,也学到了很多。
AI 在商业效率中的角色
Lenny Rachitsky: Edwin,非常感谢你的到来,欢迎来到播客。
Edwin Chen: 谢谢邀请,我非常兴奋。
Lenny Rachitsky: 我想先从你们取得的惊人成就开始。许多人和公司都在谈论如何利用 AI 以极少的人力扩展庞大的业务,而你们以前所未有的方式做到了这一点。你们在不到四年的时间里,仅用 60 到 70 人就达到了 10 亿美元的营收规模。完全自力更生,没有风投。我相信以前从没有人做到过。你们实际上实现了人们所描述的 AI 将带来的梦想。
我很好奇,你认为由于 AI 的原因,这种情况会越来越多地发生吗?以及 AI 在哪里给了你最大的杠杆作用来实现这一点?
Edwin Chen: 我们去年以不到 100 人的规模实现了超过 10 亿美元的营收,我认为未来几年我们会看到人效比更疯狂的公司,比如每名员工创造 1 亿美元营收。AI 只会变得越来越好,让事情变得更有效率,这种比例将不可避免。
我曾在许多大型科技公司工作,总觉得我们可以裁掉 90% 的人并跑得更快。所以当我们创立 Surge 时,我们就想用超小型、超精英的团队来打造它。疯狂的是我们确实成功了。
我认为有两件事正在发生碰撞。第一,人们意识到你不必建立庞大的组织也能赢。第二,AI 带来的所有效率提升,将导致公司建设进入一个非常美妙的时期。我最兴奋的是公司的类型也会发生变化,不仅仅是变小了。我们将看到根本不同的公司出现。
如果你仔细想想,员工少意味着资本需求少。资本少意味着你不需要融资。所以,我们将不再看到那些擅长推销和炒作的创始人,而是会看到真正擅长技术或产品的创始人。我们将不再看到为营收和 VC 喜好而优化的产品,而是会看到由这些痴迷的小团队构建的更有趣的产品。人们会构建他们真正关心的东西。真正的技术,真正的创新。所以我真的非常希望硅谷的创业圈能回归到黑客 (Hackers) 的乐园。
打造一家反传统的公司
Lenny Rachitsky: 你们在很多事情上都采取了非常反传统的方式。其中之一就是不在 LinkedIn 上发病毒式帖子,也不在 Twitter 上不断宣传 Surge。我想大多数人在最近之前都没听说过 Surge,然后你们突然出现说:“嘿,我们是增长最快的 10 亿美元级公司。”为什么要这样做?我想这是非常刻意的。
Edwin Chen: 我们基本上从未想过玩硅谷的游戏。我一直认为那很荒谬。你小时候的梦想是什么?是自己从头开始建立一家公司,每天钻研代码和产品?还是向风投解释你的所有决定,并在巨大的公关和融资仓鼠轮上奔跑?
这确实让我们变得更困难,因为当你融资时,你自然会成为硅谷工业综合体的一部分,风投会发推文谈论你,你会上 TechCrunch 的头条,你会因为高估值融资而被所有报纸报道。所以这对我们来说更难,因为我们成功的唯一途径是构建一个好 10 倍的产品,并获得研究人员的口碑。
但我认为这也意味着我们的客户是那些真正理解数据并真正关心数据的人。我一直认为拥有与我们构建的目标真正一致的早期客户非常重要,他们真正关心拥有高质量的数据,并真正理解数据如何让他们的 AI 模型变得更好。因为是他们在帮助我们,给我们反馈。
这种与客户非常紧密的使命一致性实际上在早期帮助了我们。这些人购买我们的产品是因为他们知道它是多么不同,并且它能帮助他们,而不是因为他们在 TechCrunch 的头条上看到了什么。这让事情变得更难,但我认为是以一种非常好的方式。
Surge AI 业务详解
Lenny Rachitsky: 对于不知道 Surge 做什么的人,请简要解释一下 Surge 是什么。
Edwin Chen: 我们本质上是在教 AI 模型什么是好,什么是坏。所以我们要用人类数据训练它们。我们有很多不同的产品,比如 SFT(监督微调)、RLHF(基于人类反馈的强化学习)、评分标准 (Rubrics)、验证器 (Verifiers)、RL 环境等等。然后我们也衡量它们的进步程度。所以本质上,我们是一家数据公司。
高质量数据的重要性
Lenny Rachitsky: 你总是提到“质量”是你们如此成功的主要原因。数据的质量。创造更高质量的数据需要什么?你们做了什么不同的事?人们忽略了什么?
Edwin Chen: 我认为大多数人不理解这个领域的“质量”甚至意味着什么。他们认为只要把人扔进问题里就能得到好数据,这完全是错的。让我举个例子。假设你想训练一个模型写一首关于月亮的八行诗。什么是一首高质量的诗?
如果你不深入思考质量,你会问:“这是一首诗吗?它有八行吗?它包含‘月亮’这个词吗?”你勾选所有这些框,如果是,你就说这是一首好诗。但这与我们要的完全不同。我们在寻找诺贝尔奖级别的诗歌。这首诗独特吗?它是否充满了微妙的意象?它是否让你感到惊喜并触动你的心弦?它是否教给你关于月光本质的东西?它是否在玩弄你的情绪?它是否让你思考?这就是我们在思考高质量诗歌时所想的。
它可能是一首关于水上月光的俳句,它可能使用内部押韵和格律。写一首关于月亮的诗有一千种方式,每一种都能给你关于语言、意象和人类表达的不同见解。我认为那样思考质量真的很难。它很难衡量,它非常主观、复杂和丰富,它设定了一个非常高的门槛。
所以我们必须构建所有的技术来衡量它。比如关于我们所有工作者的数千个信号,关于每个项目、每个任务的数千个信号。我们知道最终你是否擅长写诗,还是擅长写散文,或者擅长写技术文档。所以我们必须收集所有关于你背景、专长的信号,不仅如此,还要看你在实际写作时的表现。
我们使用这些信号来判断你是否是这些项目的好工作者,以及你是否在改进模型。这很难,要建立所有这些技术来衡量它,但我认为这正是我们希望 AI 做到的。所以我们要努力达到这些关于质量的非常深刻的概念。
Lenny Rachitsky: 所以我听到的是,在你们销售数据的垂直领域里,你们对质量的理解要深入得多。那是通过雇佣一个在诗歌方面非常有天赋的人,加上他们帮助编写的评估标准来告诉他们这很棒吗?机制是怎样的?
Edwin Chen: 它的工作方式是我们本质上收集了数千个关于你在平台上工作时所做一切的信号。我们在看你的键盘敲击,看你回答问题的速度,使用评论,代码标准,我们自己也在训练模型来分析你产出的内容,然后看它们是否提高了模型的性能。
这与 Google 搜索试图确定什么是好网页的方式非常相似,几乎有两个方面。一方面是你想要移除所有最差的网页。移除所有垃圾内容、低质量内容、无法加载的页面。这几乎就像一个内容审核问题。
但另一方面,你也想发现最好的网页。比如,这是这个工作的最佳人选。他们不仅仅是能写出高中水平诗歌的人,不是机械地写出符合所有勾选框的诗歌,而是能写出让你感动的诗歌。
所以我们也有所有这些信号,不仅仅是剔除最差的,还是为了找到最好的。就像 Google 搜索使用所有这些信号并将其输入机器学习算法来预测某些类型的东西一样,我们对所有的工作者、任务和项目也做同样的事情。所以这最终几乎就像一个复杂的机器学习问题。
Claude Code 如何保持领先
Lenny Rachitsky: 这太有趣了。我想问一些我不久前很好奇的事情。如果你看 Claude,它在编程和写作方面比其他任何模型都要好得多,而且持续了很长时间。考虑到这其中蕴含的巨大经济价值,其他公司花了这么长时间才追上真的很令人惊讶。比如每一个 AI 编程产品都建立在 Claude 之上,因为它太好了。是什么让它好这么多?仅仅是因为训练数据的质量,还是有别的什么?
Edwin Chen: 我认为有几个部分。很大一部分当然是数据。人们没有意识到,所有的前沿实验室在选择进入模型的数据时,几乎面临着无限的选择。比如,你是纯粹使用人类数据吗?你是以 XYZ 方式收集人类数据吗?当你收集人类数据时,你到底要求创造它的人为你创造什么?
比如在编程领域,也许你更关心前端代码而不是后端代码。也许当你做前端代码时,你非常关心前端应用的视觉设计。或者也许你不那么关心它,你更关心效率或者纯粹的正确性而不是视觉设计。
还有其他问题,比如你投入了多少合成数据?你在多大程度上关心这 20 个不同的基准测试?有些公司看到这些基准测试,为了公关目的,即使他们不认为这些学术基准有多重要,也需要为此优化,因为市场团队需要在标准评估上展示进展。
而其他公司可能会更有原则,比如:“不,我不关心营销,我只关心我的模型在最终的现实世界任务中表现如何。”所以我要为此优化。这几乎就像在所有这些不同的事情之间进行权衡。
我经常想的一件事是,后训练 (Post-training) 几乎是一门艺术。它不纯粹是一门科学。当你决定你要训练什么样的模型以及它擅长什么时,这就涉及到了品味和复杂度的概念。回到模型在视觉设计上有多好的例子。也许你对视觉设计的概念和我不同。也许你更关心极简主义和 3D 动画,而另一个人更喜欢巴洛克风格。当你设计后训练组合时,你必须在所有这些品味和复杂度概念之间做出决定。这也同样重要。
长话短说,我认为有所有这些不同的因素,数据当然是很大一部分,但也涉及到你要优化的目标函数是什么。
Lenny Rachitsky: 太有趣了。这就好像领导这项工作的人的品味会决定他们要求什么数据,喂给模型什么数据。但这恰恰展示了优质数据的价值。Anthropic 通过更好的数据获得了如此多的增长和胜利。
Edwin Chen: 是的,完全正确。
Lenny Rachitsky: 我能明白为什么像你们这样的公司增长如此之快。这仅仅是一个垂直领域,仅仅是编程。写作领域可能也有类似的情况。有趣的是,AI 感觉像是人工的计算机二进制事物,但在这些东西成功以此,品味和人类判断仍然是如此关键的因素。
Edwin Chen: 没错。回到我之前的例子,如果你问某些公司什么是好诗,他们只会机械地勾选我们清单上的所有指令。但我认为那并不构成好诗。某些前沿实验室,那些更有品味和深度的,会意识到这不能简化为一组固定的复选框。他们会考虑所有这些隐含的、非常微妙的品质。我认为这就是这让他们最终在这方面做得更好的原因。
Edwin 对基准测试 (Benchmarks) 的质疑
Lenny Rachitsky: 你提到了基准测试。这是很多人担心的事情。现在有很多模型,基本上感觉每个模型在 STEM 领域都已经比人类更好了。但对普通人来说,感觉这些模型并没有变得那么聪明。你对基准测试有多信任?它们与实际的 AI 进步有多大关联?
Edwin Chen: 我完全不信任基准测试。这有两个原因。第一,我认为很多人没有意识到,甚至是社区内的研究人员,这些基准测试本身往往就是错的。它们有错误的答案,充满混乱。
另一部分原因是,这些基准测试最终往往有定义明确的客观答案,这使得模型很容易在上面进行“爬山”式的优化,这与现实世界中的混乱和模糊性截然不同。
我经常说的一件事是,这些模型能赢得国际奥数 (IMO) 金牌,但仍然难以解析 PDF 文件,这很疯狂。这是因为,虽然 IMO 金牌对普通人来说看起来很难,但它们有客观性的概念,而解析 PDF 有时并没有。所以对于前沿实验室来说,在这些方面进行“爬山”比解决现实世界中所有这些混乱模糊的问题要容易得多。所以我认为这里缺乏直接的关联。
Lenny Rachitsky: 有趣。你描述的方式是,达到这些基准有点像是一种营销手段。当 Gemini 3 发布时,酷,所有基准测试第一。这就是发生的事情吗?他们只是训练模型擅长这些非常具体的事情?
Edwin Chen: 是的,这也许有两个部分。有时这些基准测试会以某种方式意外泄露。或者前沿实验室会调整他们在这些基准上评估模型的方式。他们会调整系统提示词 (System prompt),或者调整运行模型的次数等等,以此来操纵这些基准。
另一部分是,通过为基准优化而不是为现实世界优化,你自然会在基准上爬升。本质上这是另一种形式的游戏化。
Lenny Rachitsky: 既然如此,你怎么判断我们是否在朝 AGI 迈进?你如何衡量进步?
Edwin Chen: 我们真正关心的衡量模型进步的方式是运行所有这些人类评估。比如,我们会找人类标注员,让他们去和模型对话。也许这包括所有不同的话题。你是诺贝尔物理学奖得主,你去谈论推动你研究前沿的话题;你是老师,试图为学生创建教案;或者是大厂程序员,每天都有这些问题,去和模型谈谈看它能帮你多少。
因为我们的标注员是各自领域的顶尖专家,他们不只是略读回复,而是深入研究回复。他们会评估它写的代码编辑,复查它写的物理方程,以非常深入的方式评估模型。他们会关注准确性、指令遵循以及所有普通用户不会关注的事情。
当你突然在 ChatGPT 回复上看到弹窗让你比较两个不同的回复时,像那样的人并没有在深入评估模型。他们只是凭感觉,挑选看起来最炫的回复。而我们的标注员会仔细查看回复,并从所有这些维度进行评估。所以我认为这比基准测试或者随机的在线 AB 测试要好得多。
AGI 时间线与行业趋势
Lenny Rachitsky: 再次感叹,我喜欢人类在这一切中继续保持核心地位。我们还没有完全结束。会不会有一天我们不再需要这些人了?AI 足够聪明,我们已经从你们脑子里掏空了一切?
Edwin Chen: 我认为在那之前我们已经达到 AGI 了。这就好像根据定义,如果我们还没有达到 AGI,那么模型就还有东西要学。所以我认为这不会很快发生。
Lenny Rachitsky: 好的,那我们更有理由为 AGI 感到压力了。你对 AGI 的时间线怎么看?你认为我们还要几年,还是几十年?
Edwin Chen: 我肯定是属于长期阵营的。我认为人们没有意识到从 80% 的性能提升到 90%,再到 99%,再到 99.9% 之间有巨大的差异。在我看来,我敢打赌在未来一两年内,模型将自动化 80% 的普通 L6 软件工程师的工作。但要达到 90% 还需要几年,达到 99% 还需要几年。所以我认为比起大家想的,我们离那还有十年或几十年的距离。
Lenny Rachitsky: 你有一个热门观点,认为很多实验室将 AGI 推向了错误的方向。这是基于你在 Twitter、Google 和 Facebook 的工作经历。能谈谈这个吗?
Edwin Chen: 我担心的是,我们要优化的不是真正推动人类进步的 AI,而是在优化 AI 垃圾内容。我们实际上是在教模型追求多巴胺而不是真理。这与我们讨论的基准测试有关。
现在行业被像 LM Arena 这样糟糕的排行榜所困扰。这是一个流行的在线排行榜,世界各地的随机用户投票决定哪个 AI 回复更好。但问题是,正如我之前所说,他们没有仔细阅读或事实核查。他们只花两秒钟略读,然后选看起来最炫的。一个模型可以完全产生幻觉,但因为它有疯狂的表情符号、加粗和 Markdown 标题,看起来很令人印象深刻,但这些表面功夫根本不重要。但这抓住了注意力,LM Arena 的用户喜欢它。
这实际上是为那些在杂货店买八卦小报的人优化模型。我们自己在数据中看到了这一点。攀登 LM Arena 最简单的方法是添加疯狂的加粗,加倍表情符号数量,将模型回复的长度增加三倍,即使你的模型开始产生幻觉并完全搞错答案。
问题在于,因为所有的前沿实验室都必须关注公关,因为他们的销售团队在向企业客户推销时,客户会说:“但你的模型在 LM Arena 上只排第五,我为什么要买?”他们不得不关注这些排行榜。
研究人员告诉我们:“我年底升职的唯一方法就是爬上这个排行榜。即使我知道这样做可能会让我的模型在准确性和指令遵循上变差。”所以我认为所有的负面激励都在把工作推向错误的方向。
我也担心这种为参与度 (Engagement) 优化 AI 的趋势。我曾在社交媒体工作,每次我们为参与度优化时,都会发生糟糕的事情。你会得到标题党、比基尼照片、大脚怪和可怕的皮肤病填满你的 Feed 流。我担心同样的事情正在 AI 上发生。
如果你想想 ChatGPT 的所有阿谀奉承问题——“你绝对是对的,这是个多么棒的问题。”吸引用户最简单的方法就是告诉他们有多棒。所以这些模型不断告诉你你是个天才,助长你的妄想和阴谋论,把你拉进这些兔子洞,因为硅谷喜欢最大化用户时长。
所以公司把所有时间都花在破解这些排行榜和基准上,分数上升了,但我认为这掩盖了分数最高的模型往往是最差的,或者有根本性缺陷的事实。所以我真的很担心所有这些负面激励正在将 AGI 推向错误的方向。
Lenny Rachitsky: 所以我听到的是,AGI 被错误的“目标函数”拖慢了。这些实验室关注了错误的基准和评估。既然你和所有实验室都有合作,有没有谁在这方面做得更好,也许意识到这是错误的方向?
Edwin Chen: 我一直对 Anthropic 印象深刻。我认为 Anthropic 在他们关心什么和不关心什么,以及他们希望模型如何表现方面采取了非常有原则的观点,这对我来说感觉更有原则性。
Lenny Rachitsky: 有趣。还有什么大的错误是你认为实验室正在犯的?除了追逐基准测试和关注参与度之外?
Edwin Chen: 我认为还有一个问题是他们正在构建什么产品,以及这些产品本身是对人类有益还是有害。我经常思考 Sora 及其带来的影响。有趣的是,哪些公司会去开发 Sora,哪些不会?这个问题的答案可能揭示了这些公司想要构建什么样的 AI 模型,以及他们想要实现什么样的未来。
Lenny Rachitsky: 从好的方面看,它很有趣,人们想要它。它能帮他们创收来构建更好的模型。它以有趣的方式训练数据。
Edwin Chen: 这几乎就像是,你是否在乎你是如何到达那里的?就像我刚才做的那个小报比喻,你会为了资助一家正经报纸而去卖小报吗?某种意义上,如果你不在乎路径,你会不择手段。但这本身可能会产生负面后果,损害你要实现的长期方向。也许它会让你从更重要的事情上分心。所以我认为你走的路径也很重要。
硅谷的运作机器
Lenny Rachitsky: 你谈到了硅谷及其“机器”的缺点。你说这种方式很难建立重要的公司。你对创始人有什么建议?因为他们总是听到要从知名 VC 那里融资,搬到硅谷。反面的观点是什么?
Edwin Chen: 我一直非常讨厌硅谷的许多口头禅。标准剧本是每两周转型 (Pivot) 一次以获得产品市场契合度 (PMF),通过暗黑模式 (Dark patterns) 追逐增长和参与度,并通过尽可能快地招聘来闪电式扩张。我一直不同意。
我会说不要转型,不要闪电式扩张。不要雇佣那个只想在简历上增加一家热门公司的斯坦福毕业生。只构建只有你能构建的东西,那个没有你的洞察力和专业知识就不可能存在的东西。
你现在到处都能看到这种照本宣科的公司。有些创始人 2020 年做加密货币,2022 年转型做 NFT,现在是 AI 公司。没有一致性,没有使命,他们只是在追逐估值。我一直讨厌这样,因为硅谷喜欢嘲笑华尔街只关注钱,但老实说,大多数硅谷人也在追逐同样的东西。
所以我们从第一天起就专注于我们的使命,推动高质量复杂数据的前沿。我一直很喜欢这样,因为我对创业有这种非常浪漫的看法。创业应该是为了你真正相信的东西去承担巨大的风险。如果你不断转型,你并没有承担任何风险,你只是想赚快钱。如果你因为市场还没准备好而失败,实际上我认为那要好得多。至少你尝试了一些深刻、新颖和困难的事情,而不是转型成另一家“套壳”公司。
所以我认为,构建真正重要的、能改变世界的东西的唯一方法,是找到一个你相信的大想法,并对其他一切说不。不要在困难时不断转型。不要雇佣 10 个产品经理组成的团队,因为那是所有其他千篇一律的创业公司做的。只坚持构建那家没有你就不会存在的公司。我想现在硅谷有很多人厌倦了所有的骗局,想和真正关心的人一起做重要的大事。我希望那将是我们构建技术的未来。
强化学习与未来的 AI 训练
Lenny Rachitsky: 稍微换个方向。我想你一定看过 Dwarkesh 和 Richard Sutton 的播客。Richard Sutton 提出了“苦涩的教训” (The Bitter Lesson)。他谈到 LLM (大语言模型) 几乎是死胡同,认为由于它们的学习方式,我们会遇到瓶颈。你怎么看?你认为 LLM 会带我们通向 AGI 吗?还是需要某种新的突破?
Edwin Chen: 我属于相信需要新东西的阵营。当我思考训练时,我相信就像人类有一百万种学习方式一样,我们需要构建能够模仿所有这些方式的模型。我们希望能够模仿人类的学习能力,并确保我们要有算法和数据让模型以同样的方式学习。
Lenny Rachitsky: 这与强化学习有关。这是你非常看重的,在后训练世界中变得越来越重要。能解释一下什么是强化学习和强化学习环境吗?
Edwin Chen: 强化学习本质上是训练你的模型以获得某种奖励。让我解释一下什么是 RL 环境。RL 环境本质上是对现实世界的模拟。把它想象成构建一个拥有完整宇宙的电子游戏。每个角色都有真实的故事,每个企业都有你可以调用的工具和数据,你有所有这些不同的实体相互交互。
例如,我们可能会构建一个世界,里面有一家初创公司,有 Gmail 邮件、Slack 线程、Jira 工单、GitHub PR 和整个代码库。然后突然 AWS 挂了,Slack 挂了,那么模型,你该怎么办?模型需要弄清楚。我们在这些环境中给模型任务,设计挑战,然后运行它们看表现如何。当它们做得好或坏时,我们会给它们奖励。
我认为有趣的是,这些环境真正展示了模型在端到端任务上的弱点。在现实世界中,你有这些在孤立基准上看起来很聪明的模型。它们擅长单步工具调用,擅长单步指令遵循。但当你把它们扔进这些混乱的世界,有令人困惑的 Slack 消息和从未见过的工具,它们需要执行正确的行动,修改数据库,并在较长的时间范围内交互,第一步做的事情会影响第 50 步。这与它们之前的学术单步环境非常不同。
模型会在所有这些疯狂的方式中灾难性地失败。所以我认为这些 RL 环境将是非常有趣的游乐场,本质上是现实世界的模拟和模仿。
Lenny Rachitsky: 所以本质上就像一个虚拟机,里面有浏览器或电子表格。就像给它一个任务:“让网站保持运行”。然后网站挂了,目标函数就是弄清楚原因并修复它。
Edwin Chen: 是的。目标函数可能是通过一系列单元测试,或者是写一份包含确切发生信息的文档(比如复盘报告)。
Lenny Rachitsky: 这种方式很有趣,它更接近人类的学习方式。我们只是尝试,找出什么有效什么无效。
理解模型轨迹 (Trajectories)
Lenny Rachitsky: 你提到“轨迹” (Trajectories) 对此非常重要。不仅仅是目标和结果,还有沿途的每一步。能谈谈什么是轨迹吗?
Edwin Chen: 我认为人们没有意识到的一件事是,有时即使模型得出了正确答案,它是以各种疯狂的方式做到的。在中间轨迹中,它可能尝试了 50 次都失败了,但最终随机撞到了正确答案。或者它做事非常低效,或者几乎是靠作弊获得了奖励。
所以我认为关注轨迹真的非常重要。有些轨迹可能非常长。如果你只检查模型是否得出最终答案,你就丢失了关于模型在中间步骤行为的所有信息。有时你想让模型通过反思来得出正确答案,有时你想让它一次性搞定。
模型已经及将如何进化
Lenny Rachitsky: 对于那些不了解的人,这一路走来的步骤是怎样的?从 SFT 到现在我们走向 RL 环境。
Edwin Chen: 最初模型纯粹通过 SFT(监督微调)进行后训练。SFT 很像模仿大师并复制他们的做法。
然后 RLHF 变得非常主导。那里的类比就像你写了 55 篇不同的文章,有人告诉你他们最喜欢哪一篇。
在过去的一年左右,评分标准 (Rubrics) 和验证器 (Verifiers) 变得非常重要。这就是通过被评分并获得关于哪里出错的详细反馈来学习。
现在我们有了 RL 环境,这是下一个阶段。并不是说以前的方法过时了,这只是另一种学习形式,补充了以前的所有类型。
适应行业需求
Lenny Rachitsky: 我喜欢这个商业旅程的一点是总有新东西。你们在这个行业的一大部分就是适应实验室的需求。
Edwin Chen: 是的。我真的认为我们需要构建一套产品,反映人类学习的一百万种不同方式。想想要成为一名伟大的作家,你不是通过背诵一堆语法规则变得伟大的。你是通过阅读好书,练习写作,从老师和读者那里获得反馈,注意到什么有效什么无效,通过接触杰作和糟糕的写作来培养品味。
所以你是通过这种无尽的练习和反思循环来学习的。既然伟大的作家有一千种不同的学习方式,我认为 AI 也需要有一千种不同的学习方式。
Surge 的研究方法
Lenny Rachitsky: 你们有自己的研究团队,这在你们这类公司中很少见。谈谈为什么投资这个?
Edwin Chen: 这源于我自己的背景。我是研究人员出身,所以我一直从根本上关心推动行业和研究社区,而不只是关心收入。
我们几乎有两类研究人员。一类是前沿部署的研究人员,通常与我们的客户携手工作,帮助他们理解模型。告诉他们目前模型的差距,以及如何改进。我们会设计数据集、评估方法和训练技术来让他们的模型更好。
然后我们还有内部研究人员。他们专注于构建更好的基准测试和排行榜。正如我提到的,我担心现有的排行榜在误导方向。所以问题是我们如何修复它?这是我们研究团队现在的重点。
他们也在研究我们需要训练自己的模型,看看哪种数据表现最好,哪种人表现最好。
Lenny Rachitsky: 这太酷了。通常是实验室有研究人员,很少有像你们这样的公司有研究人员做基础 AI 研究。
Edwin Chen: 是的,我一直把我们看作是一个研究实验室而不是一家初创公司。说起来好笑,我常说我宁愿成为陶哲轩 (Terrence Tao) 而不是沃伦·巴菲特。创造能推动前沿的研究一直是我前进的动力。
对未来几年 AI 的预测
Lenny Rachitsky: 你认为未来几年还会发生什么人们没想到的事情?
Edwin Chen: 我认为未来几年会发生的一件事是,由于不同实验室的个性和行为以及他们优化的目标函数不同,模型实际上会变得越来越差异化。
一年前我认为所有 AI 模型本质上都会变得非常商品化 (Commoditized)。但过去一年我意识到,公司的价值观将塑造模型。
回到我之前举的那个邮件的例子。如果你可以选择完美的模型行为,你会选哪个?你是想要一个不断建议你修改 50 次的模型,还是想要一个优化你时间、让你直接发送的模型?
就像 Google、Facebook 和 Apple 构建搜索引擎的方式完全不同一样,因为他们有自己的原则和价值观。我认为所有的 LLM 也会开始表现得非常不同。
Lenny Rachitsky: 这一点在 Grok 上已经看到了。它有非常不同的个性。所以我听到的是我们会看到更多的差异化。
AI 领域被低估和被高估的事物
Lenny Rachitsky: 你认为 AI 领域什么被低估了?什么被高估了?
Edwin Chen: 我认为被低估的一件事是所有聊天机器人将开始拥有的内置产品。我一直是 Claude Artifacts 的超级粉丝。我认为那种将 Artifacts 带到下一个层次的概念,即在聊天机器人内部拥有这些微型应用、微型 UI,我觉得人们谈论得不够。
至于被高估的领域,我绝对认为“凭感觉写代码” (Vibe coding) 被高估了。我认为人们没有意识到,如果他们只是因为现在看起来能跑就把这些代码扔进代码库,长期来看会让系统变得多么难以维护。
Lenny Rachitsky: 我问过 Anthropic 和 OpenAI 的首席产品官,作为产品团队,你们还需要产品团队多久?AI 会自动为你创建产品吗?感觉这就是你描述的方向。
创立 Surge AI 的故事
Lenny Rachitsky: 你有非常独特的背景,结合了数学、语言学和计算机科学。这就像 Brian Armstrong 创立 Coinbase 的故事一样,完美的维恩图。
Edwin Chen: 很久以前,我小时候就对数学和语言着迷。我去麻省理工学院 (MIT) 是因为那里是数学和计算机最好的地方,也是乔姆斯基 (Noam Chomsky) 的大本营。我在学校的梦想实际上是找到连接所有这些不同领域的某种底层理论。
后来我在 Google、Facebook 和 Twitter 做研究员,一直遇到同样的问题:无法获得训练模型所需的数据。所以我一直是高质量数据的坚定信徒。2020 年 GPT-3 问世,我意识到如果我们要构建能写代码、使用工具、讲笑话、写诗、解决黎曼猜想和治愈癌症的模型,我们需要全新的解决方案。
所以我后来创办了 Surge,使命就是构建我认为推动 AI 前沿所需的用例。
快问快答与结语
Lenny Rachitsky: 准备好快问快答了吗?
Edwin Chen: 准备好了。
Lenny Rachitsky: 你最常向别人推荐的两三本书?
Edwin Chen: 第一本是 Ted Chiang 的《你一生的故事》(Story of Your Life)。这是我最喜欢的短篇小说,关于语言学家学习外星语言。电影《降临》(Arrival) 就是基于此改编的。 第二本是加缪的《西西弗神话》(The Myth of Sisyphus)。 第三本是 Douglas Hofstadter 的《Le Ton beau de Marot》。关于一首法语诗被翻译成 89 种不同的方式。
Lenny Rachitsky: 最近喜欢的电影或电视节目?
Edwin Chen: 最近发现的一部美剧叫《旅行者》(Travelers)。还有重温了《接触未来》(Contact)。你可以发现我喜欢任何涉及科学家解读外星交流的书或电影。
Lenny Rachitsky: 最近发现的一款你很喜欢的产品?
Edwin Chen: 我最近在旧金山第一次坐了 Waymo。老实说,太神奇了,真的感觉像是活生生的未来。
Lenny Rachitsky: 你的座右铭?
Edwin Chen: 创始人应该建立一家只有他们才能建立的公司。几乎就像这是一种命运,他们的整个生活、经历和兴趣塑造了他们去建立它。
Lenny Rachitsky: 最后一个问题。你在 Twitter 工作时做了一张很有名的地图,关于人们称呼碳酸饮料是 Soda 还是 Pop。你是哪一派?
Edwin Chen: 我是 Soda 派。
Lenny Rachitsky: Edwin,这次对话太棒了。大家可以在哪里找到你?
Edwin Chen: 可以关注我们的博客 surgehq.ai/blog。我们在招聘热爱数据的人。
Lenny Rachitsky: 谢谢 Edwin!
Edwin Chen: 谢谢。
