内容概要
Mercore 的首席执行官兼联合创始人 Brendan Foody 与 Lenny 一同探讨了人工智能评估(Evals)在训练下一代模型中的关键作用。Foody 分享了 Mercore 如何通过创建一个高端专家市场,帮助 AI 实验室通过强化学习和详细反馈来改进模型,从而成为历史上增长最快的公司。他们深入探讨了为什么 Evals 是 AI 时代新的“产品需求文档”,在 AI 驱动的经济中哪些技能和工作将保持其价值,以及支撑 Mercore 在短短 16 个月内从 100 万美元收入增长到 4 亿美元的那些核心原则。
目录
- 引言:Evals 的时代
- 嘉宾介绍:Mercore 首席执行官 Brendan Foody
- 解读“Evals 的时代”
- Mercore 的起源故事与 AI 数据行业格局
- 工作的未来与高价值技能
- 自动化劳动力市场
- 专家究竟如何训练 AI 模型
- Mercore 实现史无前例增长的关键
- 打造高标准、高强度的文化
- Brendan 的创业之路:从卖甜甜圈到投身 AI
- AI 的未来:进步与超级智能
- AI 角落:将 AI 作为思想伙伴
- 勇于实践,大胆创造
- 闪电问答环节
引言:Evals 的时代
Brendan Foody: 全球最富有的公司愿意不惜一切代价来提升模型的能力。我们正在进入 Evals 的时代。
我们开始与所有顶尖的 AI 实验室合作。他们真正需要的是一个劳动力市场,汇集那些能够衡量模型能力的杰出专业人士。他们发现了这个机会,这可能是历史上最大的商业机遇。
我们在 16 个月内,年化收入从 100 万美元增长到了 4 亿美元,这是历史上最快的增长速度。
为什么这件事如此有价值?因为市场的边界在于人类能做到而模型做不到的事情。对于实验室而言,提升模型性能的主要瓶颈,就是如何有效地衡量模型的“成功”。
你转发过一条推文:“仔细想想,我们被放在地球上,就是为了给 AI 实验室创造强化学习的训练数据。”很有可能,整个经济都会演变成一个巨大的强化学习环境(RL environment),构建出各种各样的世界和情境。
过去三年,关于 AI 的讨论几乎都围绕着“工作替代”。但很少有人或公司谈及正在被创造出的全新工作类别。
很多人问我应该学什么,应该在哪些方面提升自己。他们如何利用这项技术来完成更多的工作?在面试时,我们会给候选人这样的任务:“利用所有可用工具建一个网站,让我们看看你在一个小时内能做出什么样的产品。”
嘉宾介绍:Mercore 首席执行官 Brendan Foody
Lenny: 我今天的嘉宾是 Mercore 的首席执行官兼联合创始人 Brendan Foody。Mercore 是历史上从 100 万美元增长到 5 亿美元收入最快的公司,他们只用了 17 个月,不到一年半的时间。Brendan 也是有史以来最年轻的独角兽公司创始人,公司最近以 20 亿美元的估值融资了 1 亿美元。
如果你没听说过 Mercore,他们主要帮助 AI 实验室和公司招聘专家,利用 AI 来训练模型。他们的客户从未流失,净收入留存率超过 1600%,年化收入已达九位数。
在这次对话中,我们聊了许多话题:Evals 日益增长的价值和重要性;像 Mercore 这样的 AI 训练公司的行业格局,以及它们为何变得如此重要和有价值;Brendan 是如何发现这个机会的,以及他对产品市场契合(product market fit)的见解;他为公司注入了哪些核心原则,使其成为史上增长最快的公司;为实验室编写 Evals 的人日常到底在做什么;随着 AI 的崛起,哪些技能和工作最能经受时间的考验;为什么他认为我们短期内不会看到通用人工智能(AGI)或超级智能(superintelligence)等等。
这期节目非常精彩,你一定要听。如果你喜欢这个播客,请别忘了在你的播客应用或 YouTube 上订阅和关注,这对我们帮助巨大。
另外,如果你成为我 newsletter 的年度订阅者,你将免费获得 15 款优秀产品的一年使用权,包括 Lovable、Replit、Bolt、N8N、Linear、Superhuman、Descript、Whisperflow、Gamma、Perplexity、Warp、Granola、Magic Patterns、Raycast、ChatBRD 和 Mobbing。详情请访问 lennysnewsletter.com 并点击 Product Pass。
接下来,我为大家请上 Brendan Foody。
(广告部分省略)
解读“Evals 的时代”
Lenny: Brendan,非常感谢你来到这里,欢迎做客我们的播客。
Brendan Foody: 非常感谢你的邀请,Lenny。我是你的忠实粉丝,很高兴能与你对话。
Lenny: 我也非常期待这次对话,我也是你的粉丝,希望更多人能了解你和你正在做的事情。
我想从你置顶在 Twitter 的一条推文开始。推文是这样写的:“我们现在正与‘科技七巨头’中的六家、所有排名前五的 AI 实验室以及大多数 AI 应用层公司合作。所有客户都有一个共同的趋势:我们正在进入 Evals 的时代。”
这引起了我的注意,因为“Evals”是这个播客上反复出现的主题之一,嘉宾们都在谈论学习如何做好 Evals 的价值,以及它对公司的重要性。但感觉很多人仍然不清楚这到底是什么,以及它为何如此重要。你能谈谈你认为人们忽略了什么,以及这个“Evals 的时代”究竟意味着什么吗?
Brendan Foody: 如果模型是产品,那么 Eval 就是产品需求文档(PRD)。研究人员的日常工作就是进行数十个实验,在某个评估集(eval set)上取得微小的进步。强化学习正变得非常有效,一旦有了一个 Eval,他们就能够不断优化以达到目标。
你看,一旦人们开始专注于奥林匹克数学竞赛,模型很快就达到了饱和水平;同样,对于 SWE Bench(软件工程基准测试),我们也能很快达到顶峰。因此,在很多方面,将智能体(agents)应用于整个经济以实现工作流程自动化的障碍,就在于我们如何衡量成功?我们如何进行评估,并为我们希望智能体完成的所有任务编写 PRD?而这正是 Mercore 正在做的一大部分工作。
Lenny: 听到这里,大家可能会想:“好吧,我真的需要关注这个 Evals 了。”你有什么建议,关于如何做好 Evals,以及那些做得好的公司有什么不同之处?
Brendan Foody: 我认为,特别是对于企业来说,核心的思考方式是:如何建立一套测试或系统化的方法,来衡量 AI 在其核心价值链上的自动化程度?
比如,一家建筑公司,他们会产出建筑设计图作为最终交付物。他们如何有效地衡量 AI 在这个过程中的表现?每家公司都有自己的价值链,多产品公司可能有好几条。思考如何衡量这些价值链的效率,是在整个业务中有效应用 AI 的前提。
Lenny: 我看到你在 No Priors 播客上和 Sera、Elad 也聊过这个话题。Sera 后来发推说:“Evals 就是你的新市场营销。” 这句话是什么意思?你认为她想表达什么?
Brendan Foody: 这与我之前说的“如果模型是产品,Evals 就是 PRD”一脉相承,同时,Evals 也是销售材料。你把 Evals 交给研究人员,告诉他们应该构建什么。同时,你也可以用它来向客户展示模型的能力。
过去,大家总是引用一些学术性的评估,比如 GPQA(博士级别的推理测试)、Humanity's Last Exam 或是奥林匹克数学题。但现在,评估正转向人们实际关心的能力,比如模型如何帮助我们自动化软件平台的构建,或者如何完成投行分析。我认为,未来无论是 AI 实验室还是应用层公司,都会越来越多地使用 Evals 来展示其模型和产品的能力。
Mercore 的起源故事与 AI 数据行业格局
Lenny: 好的,我们在这个话题上再深入一点,看看你所在的市场格局。我在准备这次访谈时就在想,历史上增长最快的公司基本可以分为三类:基础模型公司、AI 编程辅助工具(比如 Cursor、Lovable、Bolt、Replit),以及像你们这样的数据标注和数据公司。
我请过 Handshake 的 CEO,也即将采访 Scale 的 CEO,此外还有 Surge 和你们。你能帮我们梳理一下这个行业的格局吗?我觉得很多人看到这些公司疯狂增长,但并不真正了解背后发生了什么。
Brendan Foody: 好的,我结合我们的创业故事来解释一下行业格局。
我和我的联合创始人在 14 岁时就认识了。19 岁那年,也就是 2023 年 1 月,我们一起创办了公司。最初的业务是为我们在世界各地的朋友匹配国际人才,并自动化了招聘流程。比如,我们会用大语言模型(LLMs)来自动完成简历筛选、面试和录用决策等传统上由人工完成的工作。我们靠自有资金将公司做到了 100 万美元的年化收入,然后才从大学退学。
后来,我们接触到了 OpenAI,并发现人力数据市场正在发生巨大转变。过去,这个市场更像是一个众包问题:如何找到大量中低技能的人来为早期 LLM 编写语法勉强通顺的句子。现在,它变成了一个人才寻源和筛选的问题:如何找到并评估最顶尖的专业人士?比如有经验的 FANG(大型科技公司)软件工程师、投行分析师、医生和律师,这些人能够真正评估和诠释模型需要具备的各种复杂能力。
从那时起,我们开始与所有顶尖的 AI 实验室合作。在 16 个月内,我们的年化收入从 100 万美元增长到了 4 亿美元。这是一段非凡的旅程,非常激动人心。
Lenny: 等等,这太疯狂了。我不知道大家是否意识到,这应该是你第一次公开这个数字。从 100 万到 4 亿美元,只用了 16 个月。
Brendan Foody: 是的,这是历史上最快的增长速度,我们为此感到非常自豪。
Lenny: 好的,这里面一定有大事发生。为什么这个业务如此有价值?简单总结一下,你们是帮助 AI 实验室招聘专家来训练他们的模型,而且你们找的不是普通劳动力,而是能弥补模型特定知识短板的专家。
Brendan Foody: 完全正确。这又回到了我们最初讨论的“Evals 时代”这个大背景。AI 实验室提升模型能力的主要瓶颈,就是如何有效地衡量模型的“成功”。这既是为了设定评估基准,也是为了在强化学习环境中提供验证者(verifiers),从而奖励模型、提升能力。
他们需要在所有领域、针对模型不具备的每一种能力,都建立这样的衡量体系。而全球最富有的公司愿意不惜一切代价来提升模型的能力,Mercore 正好处在这个关键的瓶颈位置。
Lenny: 那么,这些专家具体在做什么呢?比如,什么样的专家是抢手货?他们坐在电脑前具体的工作内容是什么?
Brendan Foody: 实际上,这个市场的边界就是“人类能做到而模型做不到”的所有事情。举个具体的例子:假设你希望一个模型能像律师一样为合同撰写修订意见(red line),但模型犯了一些错误,遗漏了几个关键点。
你可以请一位律师来创建一个评分标准(rubric),就像教授为作业制定评分标准一样,明确我们希望模型能够做到的事情,然后据此打分。比如,如果模型指出了某个要点,就加分。这为衡量模型的进步提供了基础。
这个评分标准既能评估模型是否达到了专业人士期望的能力水平,也能作为训练数据,用来奖励和强化模型,让它掌握这些能力。
Lenny: 好的,所以他们本质上就是在编写 Evals,这又回到了我们最初的话题。
Brendan Foody: 是的。有趣的是,大家都在谈论强化学习环境(RL environment)和 Evals,这似乎是两个热门词。但像 Andrej Karpathy 就多次在推特上指出,这两者在数据类型上其实没有本质区别,只是描述其用途的语义不同。最终,它们都是一个基准点,用来衡量“好”的标准是什么。
你可以把它用作基准,就像 Sera 说的,作为销售材料来证明“为什么我们的模型是世界上最好的”;或者,你也可以在模型训练后期用它来奖励某些正确的推理路径,从而让模型获得期望的能力。
Lenny: 好的,所以律师会说:“这是一份优秀的合同修订意见,这是评判卓越的标准。”然后,他们是否也会提供实际的合同修订文件作为训练数据?
Brendan Foody: 可能会。历史上,数据主要分为两种。第一种是监督微调(supervised fine-tuning)数据,也就是输入-输出对,这是传统意义上的微调。第二种是基于人类反馈的强化学习(RLHF),模型生成几个选项,然后由人来选择最好的一个。
现在,整个行业的大趋势是转向基于 AI 反馈的强化学习(RLAIF)。在这种模式下,人类只需要定义成功的标准,也就是衡量方法。比如在编程领域,这个标准可以是一个单元测试;在其他领域,可以是一个评分标准。然后,用这个标准来激励模型提升能力。这种方法的可扩展性更强,数据效率也更高。因此,无论是评估模型还是提升能力,RLAIF 正在成为主流。
Lenny: 我之前采访过 Anthropic 的一位联合创始人,他也表达了完全相同的观点。Anthropic 已经转向了由 AI 驱动的强化学习。所以,如果我理解得没错的话,整个流程是这样的:律师定义了“什么是正确的合同修订”,然后 AI 几乎是自主地去尝试、去改进,并通过对照这个 Eval 或评分标准来判断自己是否走在正确的方向上。
Brendan Foody: 完全正确。它会应用所有关于“好”的标准,就像助教用教授的标准来评判学生的答案是否符合要求,并给出相应的分数一样。
工作的未来与高价值技能
Lenny: 我们来谈谈更广阔的劳动力市场。这里有两个问题。第一,这项工作需要持续多久?会不会有一天我们不再需要人类专家了?你们公司增长如此之快,会不会达到一个“人力已尽”的临界点?
Brendan Foody: 关键问题是,经济中“人类能做到而 AI 做不到”的事情会存在多久。当然,有一派人认为,我们将在三年内实现超级智能,届时人类在经济中将无足轻重。
但我们的看法完全不同。我们认为,这些模型虽然在自动化许多任务上表现出色,但在很多方面仍然非常糟糕。比如,它现在还无法帮我安排日程、起草邮件,甚至连使用基本工具都做不到。
我们需要为所有这些任务创建 Evals。无论是工具使用,还是长周期的推理能力,都需要评估标准。想象一下,十年后我们希望模型能用 30 天时间创办一家公司,我们就需要为这个过程制定 Evals 来有效地奖励它。我认为,提升模型的这条路,只要经济中还有任何人类能做到而模型做不到的事情,就会一直走下去,并且这将构成未来工作的重要组成部分。
我们的使命是创造工作的未来。这个行业让我们得以一窥未来的发展方向,这非常令人兴奋。
Lenny: 你转发过一条推文,我想问问你的看法:“仔细想想,我们被放在地球上,就是为了给 AI 实验室创造强化学习的训练数据。” 这对你来说意味着什么?
Brendan Foody: 这与我同许多顶尖实验室的研究人员和高管的对话不谋而合。他们普遍认为,整个经济体很可能会变成一个巨大的强化学习环境机器,不断构建出各种世界和情境,然后由我们来提供评分标准或其他形式的验证者。
从很多方面来看,这都非常激动人心。我们可以类比一下历史上的其他革命。比如工业革命时期,人们都担心失业,但随之而来的是全新的工作类别,比如如何制造机器、如何从事知识工作。过去三年,关于 AI 的讨论几乎完全集中在“工作替代”上。虽然 ChatGPT 发展迅速,深受大家喜爱,但在经济层面,人们谈论更多的是失业。
很少有公司和人去讨论正在被创造出来的新工作类别,以及这意味着什么,人们该如何为此做准备和提升技能。我认为,最激动人心的事,莫过于创造一个人类在经济中如何自处、如何演变的未来。
Lenny: 很多人问我,应该学什么,应该在哪些方面提升自己?尤其是在校学生,他们很迷茫,不知道未来什么才是有价值的。你身处这个领域的核心,对哪些工作需求最大、招聘如何演变有着深刻的理解。所以我想问一个具体的问题:你认为未来哪些工作会依然存在?对年轻人来说,哪些技能仍然值得投资?
Brendan Foody: 就工作而言,我认为那些需求弹性(elastic demand)非常大的领域会非常有前景。因为当我们让人们的生产力提高 10 倍时,我们可能会创造出 10 倍甚至 100 倍的软件。例如,产品经理现在能做的事情更多了,他们的职位将变得极其重要。
就技能而言,我认为关键在于能够利用 AI 来完成日常工作流程的人。我曾和几位老师聊过,他们问我该如何评估学生。我们最初就是为人们设计各种 AI 面试和评估方案的,对此思考了很多。我们意识到,你不应该阻止学生使用模型,这就像计算器刚出现时,你不应该布置大量纯计算的算术题。你应该鼓励他们使用工具,然后看他们能做出什么。
所以,在我们的面试中,我们会说:“你可以使用 ChatGPT、Codex、Cursor 等任何工具来建一个网站,让我们看看你在一个小时内能做出什么样的产品。” 我举这个人才评估的例子,是因为它同样适用于人们应该培养的技能:无论你在哪个行业,都要学习如何利用这项技术来完成更多的工作。
Lenny: 你说的“弹性”是指什么?是指成为一个通才,擅长很多不同的事情吗?
Brendan Foody: 我更多指的是那个行业的需求容量有多大。举几个例子:在会计行业,说实话,世界需要的会计工作是有限的。虽然在某些领域我们也许可以做得更多,但世界似乎并不需要 100 倍的会计工作。
但在软件开发领域就不同了。我认为我们可以为产品发布 100 倍的功能,开发速度快 100 倍,创造出更多的东西。这个行业的需求似乎是无限的。Marc Andreessen 最近也发推说,软件是所有行业中需求弹性最大的,生产力的提升会带来更多的创造。当然,其他很多领域也具备这个特点。所以,我会专注于那些当我们把每个人的生产力提高 10 倍时,需求会增加而不是减少的领域。
Lenny: 好的,所以你仍然认为学习编程、主修计算机科学是有用的。
Brendan Foody: 是的。
Lenny: 在这些需求弹性的工作类别中,你提到了工程和产品管理。听众中很多是产品经理。还有其他哪些领域属于这个范畴呢?比如设计、用户研究?
Brendan Foody: 是的,我认为在整个公司建设的价值链中,很多可变成本的环节都属于这个范畴,比如运营或咨询。想象一下,如果我们能拥有 10 倍的麦肯锡顾问,那么在研究、分析等方面能实现多大的突破。
我认为,未来会成功的公司和个人,是那些拥抱“丰裕”叙事的人,他们思考的是如何做得更多,而不是那些抵制变革、试图阻止工作被替代的人。
Lenny: 这也呼应了你的第二个观点:未来最成功的人,不一定具备某种特定技能,而是擅长使用 AI,利用 AI 让自己在原有领域做得更好。这让我想起了 Elon Musk 的 Neuralink 项目。我听到的说法是,他想建立 Neuralink,是因为未来当 AGI 和超级智能出现时,我们需要一种方式与之竞争,而最好的方式就是将我们的大脑接入超级智能。感觉善用 AI 工具就像是拥有了这种超能力。
Brendan Foody: 是的,弄清楚如何利用和整合这些工具,将是至关重要的。
Lenny: 这又回到了那句近乎陈词滥调的话:“AI 不会取代你,但善用 AI 的人会取代你。”
Brendan Foody: 我认为这句话完全正确。我在企业层面也看到了这一点。有些企业对此感到恐惧,不愿意接触,不愿意评估自己的业务,因为这可能会证明他们的价值链正在被自动化。我指的是一些全球知名、非常复杂的财富 500 强公司。
而另一些公司则积极拥抱变革,他们会思考:“如果我们能将效率提升 10 倍或 100 倍,这意味着什么?我们如何迎接这个未来?”未来十年将发生巨变,我认为后者才是能成功的企业类型。
自动化劳动力市场
Lenny: 我们来谈谈更广阔的劳动力市场。有趣的是,你们公司最初的业务并不是为 AI 实验室提供人才,而是帮助普通人找工作、帮助公司招聘。然后你发现了这个巨大的机会。你对劳动力市场和招聘的未来有什么独到的看法?
Brendan Foody: 是的。我记得我们创业时才 19 岁,当时就有一种直觉,觉得劳动力市场如此分散,效率极其低下。我的意思是,当我们在海外招聘时,一个求职者可能会申请十几个职位。而我们作为一家湾区公司,在考虑候选人时,接触到的只是市场上极小一部分的人才。
原因在于,匹配过程是一个巨大的难题,每个人都在手动解决:手动筛选简历,手动面试,手动决定录用谁。但当我们能以软件的成本自动化这个匹配过程时,就有可能创建一个全球统一的劳动力市场。所有求职者都向这个市场申请,所有公司都从这个市场招聘,从而实现经济中信息的完美流动。
我坚信这是我们未来的发展方向。但随着时间的推移,我们意识到,工作的性质本身也在发生巨大变化。要在未来十年构建这个愿景,一部分工作就是去创造“工作的未来”,这体现在我们为客户构建 Evals 和强化学习环境等具体工作中。
Lenny: 我观察到招聘领域的变化是,现在申请工作变得非常容易,每个人都可以申请数百家公司。AI 可以轻松地帮他们调整简历和求职信,看起来像是专门为某家公司写的,但实际上只是百里挑一。反过来,招聘经理收到的申请泛滥成灾,他们也需要 AI 来进行筛选。所以,即使我们不想,似乎也被推向了这个方向:供需两端的海量信息,需要一个非常智能的系统来帮助我们筛选和招聘。而这正是你们一直在做的事情。
Brendan Foody: 完全正确。有趣的是,很多人问我们,我们到底是一家劳动力市场公司,还是一家数据公司。这个问题很有意思,因为我们从 AI 实验室的需求中意识到,他们真正需要的是一个劳动力市场,一个能提供顶尖人才的市场。当然,我们会为此配套一些项目管理和软件平台。
但他们最核心的需求是:如何找到遍布各个领域的杰出专业人士,来衡量模型的能力,并与他们共同构建工作的未来。
专家究竟如何训练 AI 模型
Lenny: 回到这个工作原理的话题。我有个朋友脚踝扭伤了,他拍了 X 光片,然后把片子上传给 ChatGPT 问诊。ChatGPT 竟然给出了诊断。他很困惑地问我:“互联网上到底有什么数据能训练出这种能力?” 我告诉他:“不,这实际上是有人在模型无法理解某个领域时,坐下来教它。是人类在帮助它学习这些东西。”
Brendan Foody: 完全正确。模型的工作原理是这样的:预训练(pre-training)阶段,模型会吸收大量知识,了解世界上的各种事物。然后是后训练(post-training)和强化学习阶段,这个阶段是关于推理的——哪些知识是准确的,哪些不准确,在做决策时应该优先考虑什么。
所以,在 ChatGPT 的背后,一定有放射科医生参与了后训练数据集的构建,他们为诊断结果设定了基准、奖励和惩罚。最终 ChatGPT 做出高质量决策和建议,其背后是这些专家的专业知识。
Lenny: 我们来深入探讨一下这个话题。所以,你们和这些专家的工作属于后训练阶段,而不是向模型提供预训练数据。也就是说,我们已经有了 GPT-5 这个模型,现在要做的就是找出它的不足,然后补充这些知识。
Brendan Foody: 是的。这实际上是在解锁模型的能力,让它能从预训练数据中关注到正确的“令牌”(tokens),在模型上下文中找到正确的信息,并强化有效的推理链,从而让模型能够以更通用的方式进行更好的推理。
Lenny: 从事这项工作的人规模有多大?是几千、几万,还是几十万?
Brendan Foody: 任何时候都有数万人在从事这项工作,总体规模则达到数十万。最令人兴奋的是,这个数字还在快速增长。
这也要回到你关于竞争格局的问题。历史上,有很多众包公司,他们能提供大量的低技能劳动力,比如 Scale 和 Surge 就是这个行业的先驱。但随着市场向高技能劳动力转变,人们意识到,即使数量较少,更高水平的人才也能带来更大的价值。当然,一旦质量达标,规模也会随之扩大。
在我们取得快速增长后,很多公司也开始追随这个方向。他们看到了市场的快速变化和我们的成功,也想在这个领域分一杯羹。
Lenny: 有趣的是,在 AI 时代之前,就有像 AlphaSights 和 GLG 这样的公司,他们做的就是连接客户和专家,让客户付费咨询问题。现在看来,这种模式对训练模型也非常有用,只是不再需要中间的人工对接了。
Brendan Foody: 是的,但一个核心区别是,AlphaSights 通常提供的是一次性的电话咨询。而我们的大部分工作是为项目招聘人才,让他们在一段时间内持续工作。这也是传统专家网络很难进入这个领域的原因之一。
此外,如何留住这些人才,如何设计激励机制,也使我们的模式在某些方面更像 Uber 或 DoorDash 这样的传统劳动力市场,只是我们服务的是技能水平更高、待遇也更好的顶尖人才。
Lenny: 这对我来说是个很好的学习机会,所以我会继续提问。这些专家关注的重点,有多大比例是具体的硬知识(比如如何做检查、看 X 光片),又有多大比例是关于个性、软技能的?
Brendan Foody: 这取决于不同的 AI 实验室,两者都有。早期可能软技能的比重更大一些。但现在,很多实验室都专注于他们的商业模式,也就是那些能带来收入、具有经济价值的能力,所以他们更多地投入到专业领域。
当然,创造性方面的能力对大家来说依然非常重要,所以我们在这两方面都有很多投入。比如,几个月前,我们聘请了哈佛大学幽默社团(The Harvard Lampoon)的所有成员,来帮助模型变得更风趣。我们还聘请过艾美奖获奖编剧等各类创意人才。
Lenny: 这太酷了。这些改进需要多久才能在模型上体现出来?是几个月还是几年?
Brendan Foody: 这要看情况。有些实验室会进行迭代式发布,在后台不断改进模型,而不会宣布新版本。另一些则会进行大型发布。我们为所有这些实验室提供支持。
我们的响应速度非常快。客户提出需求,比如需要获奖编剧,我们能在 24 小时内找到合适的人选。
还有一个有趣的现象:在我们招聘的 100 个人中,往往是表现最好的那 10% 带来了大部分的模型提升。这就像一个公司,顶尖的 10% 员工创造了大部分价值。这意味着,如果我们能在识别这 10% 的顶尖人才方面建立起独特的优势——不仅是把他们吸引到我们的平台,还要能有效地识别和匹配他们——我们就能为客户创造巨大的、难以被竞争的价值。这又回到了我们公司的创立初衷:如何找到并识别这些杰出的人才,为客户提供顶尖的体验。
Lenny: 那么,假设你们招聘了一位顶尖的程序员 Jane,她是被 Anthropic 全职雇佣来做这项工作,还是这更像一个兼职或项目制的合作?
Brendan Foody: 有时是兼职,有时是全职,但大多数情况下是兼职。比如,有些在 FANG 公司工作的人可能觉得自己的工作不饱和,每周能有额外的 20 个小时,他们就会利用这些时间来做我们的项目。当然,我们也有很多每周工作 40 小时的全职岗位。
Lenny: 他们的收入如何?足以吸引一位 FANG 的工程师投入时间吗?
Brendan Foody: 是的,收入非常有吸引力。我们平台上的时薪中位数是 95 美元,但根据专家的专业深度,最高可以达到每小时 500 美元。
这和众包公司有很大区别。众包公司的平均时薪大概是 30 美元。你可以想象一下,30 美元能请到的是什么样的大学生,而我们能请到的是高盛的银行家、麦肯锡的分析师、FANG 的软件工程师。最终,这取决于 AI 实验室希望他们的模型具备什么样的能力,而这些能力显然更多地掌握在后者手中。
Lenny: 我知道有些事你不能说得太细,但 Anthropic 的 Claude 模型在编程方面一直表现非常出色,比其他模型要好得多。它在写作和提供反馈方面也很棒。是什么让他们在这方面做得这么好,并能一直保持领先?
Brendan Foody: 我不能透露太多关于客户工作的细节,但我认为,这背后的趋势是强化学习,以及如何非常审慎地定义正确的奖励机制。这是我们在整个行业中看到的普遍现象。如何减少“奖励投机”(reward hacking)、设置正确的奖励,这非常关键。
Lenny: 归根结底还是 Evals。
Brendan Foody: 是的,又回到了 Evals。我从客户那里听到的一句我最喜欢的话是:“模型的优劣取决于它的 Evals。” 这句话一直都适用。
Lenny: 我记得 Greg Brockman 也发推说过:“Evals is all you need.”
Brendan Foody: 是的,千真万确。
Mercore 实现史无前例增长的关键
Lenny: 我们来多聊聊 Mercore。数据显示,它是历史上增长最快的公司。我想知道你们是怎么做到的。你认为,在打造 Mercore 的过程中,哪些核心原则对公司的成功贡献最大?
Brendan Foody: 我认为最重要的一点是,在快速变化的市场中,要关注领先指标。我记得以前,当风险投资人谈论“为什么是现在”(why now)时,我更多地从产品角度思考,而不是市场角度。比如,我认为“现在”我们可以自动化简历筛选或面试流程。但实际上,传统招聘市场已经有很多成熟的公司,相对停滞。
真正重要的是找到那些正在快速变化的新市场、新需求。在这些市场里,最富有的客户愿意不惜一切代价来提升模型的能力。我们要做的就是专注于这些市场的领先指标,确保我们能为这些头部客户提供最好的解决方案,并围绕这一点进行优化。这是我发现的在业务建设中最有效的方法。
如果说还有一个原则,那就是对客户的极度痴迷。在过去一年半的时间里,我们几乎没有销售和市场营销人员。我们把公司 100% 的资源都投入到为客户打造出色的产品和体验上。我们的增长主要依靠口碑传播——那些在其他公司与我们合作过的人,愿意继续与我们合作。
我把所有时间都花在这上面。我认为,有些创始人在真正找到能赢得客户喜爱的核心价值之前,就过早地投入到市场营销中,这是本末倒置。
Lenny: 我想回到你说的第一点。你们发现了这个巨大的商机,那么,你是如何最初发现它的?让你意识到“这可能会非常大”的那个时刻是怎样的?
Brendan Foody: 这背后有些疯狂的故事。我们是 2023 年 1 月创办公司的。同年 8 月,我还在上大学,我们的一位客户通过 Zoom 把我们介绍给了 xAI 的联合创始人们。客户说我们有一些非常聪明的印度软件工程师,在数学和编程方面很出色。
我们见到他们后,解释说我们的工程师之所以擅长数理,是因为他们没有被文科分散精力,不用学历史、英语这些东西。他们非常喜欢这个点。两天后,他们就邀请我们去了特斯拉的办公室,我会见了除 Elon 之外的整个 xAI 联合创始团队。当时我还是个大学生。
那时 xAI 才刚起步,他们对我们专注于专家质量的模式非常感兴趣。但当时他们还在进行预训练,还没到需要人力数据的阶段,所以我们当时没有开始合作。但从那一刻起,甚至在我们退学之前,我们就知道,市场即将发生巨变,我们必须站在这个变革的前沿。
几个月后,一家众包公司找到我们,通过我们的平台招聘了超过一千人。这是一次非常有意思的经历。我们开始收到大量的投诉,说那些被招聘的人没有拿到工资。我们感到非常糟糕,因为是我们把他们推荐给了这个机会,而那家公司看起来也很有信誉。我们意识到,很多行业内的成熟公司在应对市场变化方面已经懈怠了,他们为人才提供的体验也远远不够。
我们看到了一个机会:直接与 AI 实验室合作,既能保障专家的尊严和优厚报酬,又能省去中间环节。于是,从去年五月开始,我们就这么做了,之后的故事就是历史了。
Lenny: 哇,从那以后就有了数亿美元的收入。所以,我听下来,你们非常善于寻找市场的拉力(pull)。你看到了一些信号,去探索它,一旦发现其中有真正的机会,就全力以赴,把它做到极致。
Brendan Foody: 是的。如果非要给创始人一些建议的话,那就是我意识到我曾花了很多时间试图“强求”产品市场契合。在某种程度上,坚持是必要的,你应该对自己关于世界将如何变化的理论有信心。但有时候,你真的需要倾听市场的声音,感受到那种拉力,才能知道该把精力放在哪里。
如果你的产品很难卖,那么你就无法建立起一个大企业。你真正需要找到的,是那些出乎意料地容易成交的客户,这说明你切中了一个巨大的痛点,你可以和他们一起成长。所以,这需要在“固执地坚持自己对世界变化的理论”和“对具体实现形式、市场发展保持开放心态”之间找到一个平衡。
Lenny: 这是一个非常棒的洞见。你刚才描述的时刻,似乎是与 xAI 的会面让你感觉到“哇,他们非常需要我们正在做的这件事”,以及后来平台上有一千人被招聘。是这两个时刻让你意识到机会来了吗?
Brendan Foody: 正是如此。而且你要知道,这些都发生在我们还是家种子轮公司的时候。实际上,第一次会面时我们甚至还没拿任何融资,完全是靠自有资金运营的,我们一直都非常注重资本效率,从未烧过钱,一直是盈利的。
后来,我们从 General Catalyst 拿到了种子轮融资。在那之后,我们通过那次大规模招聘的经历,真正意识到了这个市场的巨大需求,也看到了行业内成熟公司在应对市场变化时的迟缓。
打造高标准、高强度的文化
Lenny: 发现机会并开始执行是一回事,但能做到如此大的规模并持续成功是另一回事。你们公司内部有非常明确的价值观,能谈谈吗?感觉这也是你们成功的重要原因。
Brendan Foody: 当然。我来说说我们的三个价值观,并各自分享一个小故事。
第一个是“必能得”(can-do)的态度。大家总觉得这个说法有点好笑,但我们一直设定一些极其宏伟的目标,然后公司的发展轨迹竟然就真的围绕着这些目标形成了。我记得在 Benchmark 领投我们 A 轮之前,我们的年化收入是 150 万美元,我当时说我们到年底要做到 5000 万。他们觉得我疯了,但我们最终在预定时间的正负两周内就达成了目标。现在,我们已经远远超过了最初为今年设定的 5 亿美元年化收入的目标。所以,无论是收入规模,还是为人才提供的体验,设定宏伟的目标并相信能实现,是“必能得”态度的核心。
第二个是高标准。这体现在我们招聘什么样的人,以及我们对他们的期望。我们的招聘门槛非常高,招了很多前创始人,背景都非常出色。我们最近还请来了 Sandeep Jain 担任总裁,他曾是 Uber 的首席产品官和首席技术官。他加入了我们这个相对还很小的公司,来帮助我们扩展流程,毕竟 Uber 是全球最大的劳动力市场。所以,极高的标准至关重要。
第三个我们非常强调的是强度(intensity)。如果你看那些传奇公司的早期文化,比如 Meta 或 Google,他们都有着令人难以置信的高强度文化,员工们会竭尽全力去推动技术的边界。我们也非常注重结果导向,看重员工的成就,而不是他们工作了多少小时。但我们同时也认识到,要建立一家传奇企业,需要付出巨大的努力,这也是我们最终的目标。
Lenny: 我能理解这套组合拳为什么有效:“必能得”的态度,加上高标准,再加上高强度。最近关于“996”文化的讨论很多,很多人觉得这很糟糕。但与此同时,我不断从最成功的 AI 公司那里听到,这是成功的必经之路,因为行业发展太快,这是一个千载难逢的机会。你怎么看?
Brendan Foody: 需要澄清的是,我们从未强制规定工作时间。这更多的是一种自发现象,因为我们团队的人都非常在乎公司的发展。所以很多人会自愿待在办公室到很晚。但如果他们需要早点下班陪孩子吃饭,或者周末去旅行,那完全没问题。
对我们来说,更重要的是找到那些有强烈主人翁精神、真正投入的人,而不是关心他们在办公室待了多久。虽然我们发现,那些最投入的人,往往也是和我们一起工作到深夜的人。
Lenny: 你说的高标准,能举个具体的例子吗?因为很多人都认为自己标准很高,但实际上并非如此。
Brendan Foody: 在招聘时,速度和质量之间总有权衡。你要非常有耐心。我记得,尤其是在招聘我们前 10 名员工时,我们非常有耐心地寻找世界上最优秀的人才。比如,我们的第二位美国员工 Sid,他之前是 Scale 的增长负责人,在我们还是种子轮公司时就加入了我们。还有 Daniel,他曾将两款消费者应用从零做到超过 10 万用户。我们前 10 名员工的背景都非常出色。我认为,早期的人才密度,极大地塑造了公司后续规模化发展的组织形态。
Lenny: 我知道你还有一个观点,就是人们常说要“慢慢招人”,但这不一定是正确的建议。
Brendan Foody: 这确实是一把双刃剑。一方面,我很高兴我们的前 10 名员工都如此优秀,这对公司发展大有裨益。但另一方面,公司发展到某个阶段,你就是需要快速招聘。有些事情需要大量人手来完成。你必须认识到,招聘总会有不确定性,但快速行动是第一位的。
从某些方面来说,我们在团队扩张上可能太慢了。好处是,我们团队的每个人都很出色,我们保持了很高的标准。但坏处是,虽然公司增长很快,但如果我们行动再快一些,尤其是在从 10 人扩张到 100 人的阶段,我们可能能增长得更快。
Lenny: 所以你的建议是,前 10 个人要非常谨慎,慢慢来;从 10 人到 100 人时,可以加快速度。
Brendan Foody: 是的,但这个“10”不是一个固定的数字。关键节点在于你确定业务模式真正跑通了。一旦你发现市场需求远超你的供应能力,那你就应该踩下油门,在很多方面优先考虑速度。但在那之前,保持耐心、严谨,招到最优秀的人才总是很重要的。
Brendan 的创业之路:从卖甜甜圈到投身 AI
Lenny: 你之前也创办过几家规模小得多的公司。现在作为一家高速增长的巨头公司的 CEO,你觉得这个角色最让你意外的是什么?你的时间主要花在哪里?
Brendan Foody: 其实并不算太意外。我的时间主要花在两件事上:招聘,以及与客户沟通。我要深入了解客户的需求,并思考如何支持他们,同时还要围绕这些需求来搭建团队和流程。当然,也有很多意料之外的琐事,比如如何设定职级、薪酬体系等,这些都是在公司规模化过程中需要学习的。但总的来说,我投入时间的核心领域和我预想的一样,也是我热爱做的事情,这很幸运。
Lenny: 你之前创办的公司,能分享一下吗?它们教会了你什么,帮助你取得了今天的成功?
Brendan Foody: 我大概做过十几个项目,我挑两个我最喜欢的说吧。
我八年级的时候,创办了一个叫“甜甜圈王朝”(Donut Dynasty)的项目。我发现 Safeway 的甜甜圈一打只卖 5 美元,我觉得这太划算了。于是我开始骑车去 Safeway 买甜甜圈,然后回到我们中学,以每个 2 美元的价格出售,利润非常可观。
甜甜圈很快就卖光了,所以我需要扩大规模。我付给我妈妈 20 美元,让她开着她的小货车带我去 Safeway,一次买 10 打,然后回学校卖掉。后来学校想阻止我,因为我在校园里卖食品。他们把我叫到校长办公室,让我别这么做。于是,我把我的甜甜圈摊位往外挪了 50 英尺,这样就不在校园里了,他们就管不着我了。
我还记得当时出现了竞争对手,他们卖的是更高档的 Chucks 甜甜圈,但成本也更高。于是我把我的价格降到 1 美元,持续了两周,把他们挤出了市场,那时我还不知道这叫反竞争行为。我还雇了我的朋友们,用甜甜圈付他们工资,因为他们觉得每个甜甜圈值 2 美元。
这段经历让我学到的最重要的一点是:你可以放手去做。很多人有想法,但阻碍更多公司诞生的,往往是缺乏行动力。你要做的就是迈出第一步,去创造客户想要的产品或体验,并投入时间和精力去扩大它。正是这些早期的实践,让我意识到我应该在未来以更大的规模去做这件事。
Lenny: 这故事太棒了,而且卖的是甜甜圈,不是什么违禁品,很健康。
Brendan Foody: 当时我妈妈很担心,她问我:“这些甜甜圈里没加什么东西吧?”我向她保证,这绝对是纯正的甜甜圈。
Lenny: 我很喜欢你付给你妈妈 20 美元让她开车带你那段。
Brendan Foody: 是的,她很坚持,不能白帮忙。我们还为她的头衔争论了一番,她最终想要“全球运营主管”这个职位,我们觉得很有趣。
Lenny: Mercor 这个名字有什么来历吗?
Brendan Foody: Mercor 在拉丁语里是“市场”或“买卖、交易”的意思。我们想建立世界上最大的市场,一个让每个人都能找到工作的市场。这就是这个名字的由来。
AI 的未来:进步与超级智能
Lenny: 最后一个问题。我们之前谈到,模型训练的燃料从“数据”转向了“专家”。你认为这之后还会有下一步吗?还是说,这就是通往 AGI 和超级智能的路径了?
Brendan Foody: 我不认为这是从数据到专家的转变,更准确地说,是范式的转变。大家意识到,AI 实验室需要与专家紧密合作,来理解他们正在构建的 Evals,并推动技术前沿。
我认为很明显,Evals 是永恒的。只要我们想改进模型,我们就需要专家来为它们创建 Evals 和后训练数据。当然,具体的训练方法可能会变,比如强化学习或其他方式,但我们永远需要 Evals 来衡量在每个想构建的领域里,“成功”是什么样的。
Lenny: 好的,那么基于此,现在有一个很热的话题,就是关于“规模法则”(scaling laws)和模型智能的进展。很多人觉得模型的发展速度似乎在放缓,我们可能无法以现在的速度达到超级智能。你怎么看?
Brendan Foody: 我完全同意。虽然有些大实验室的高管说我们将在三年内实现超级智能,但我认为事实是,这是一条更长的路。这并不是说现在的模型不厉害。我认为在未来十年内,我们肯定能自动化大部分的知识工作。
但通往超级智能的漫长道路,是由所有的 Evals 铺就的。我们不是靠 10 倍的预训练数据来实现这些能力,而是靠那些数据效率更高、设计更精巧的后训练数据集来达到目标。
Lenny: David Sacks 发过一条推文,说我们现在的情况几乎是最好的情况:AI 没有在快速地奔向超级智能,有很多竞争者相互制衡,模型已经非常有价值并且还在不断进步,但又没有出现一个“赢家通吃”的超级智能来统治世界。
Brendan Foody: 是的,我认为是这样。关于超级智能的很多恐惧可能被夸大了。但同时,很多人的观点是,即使“P doom”(毁灭性后果的概率)只有 5% 到 10%,我们也应该保持谨慎,这听起来是合乎逻辑的。
但我认为,未来十年对硅谷乃至全世界来说,都将是非凡的十年。这项技术将创造巨大的富足,为每个人提供更好的医疗、法律建议,并以前所未有的能力创造出伟大的产品。
Lenny: 教育领域似乎也在发生变革。
Brendan Foody: 当然。在过去十年里,我就感受到了这一点。我父母总说我上大学不去上课,但我会告诉他们:“YouTube 上有更好的课程,为什么不去那里听呢?” 我无法想象,当模型在传授知识方面比最好的教授做得还要好时,那将意味着什么。这将极大地促进信息的获取,推动人类进步,并提升每个人的技能。
AI 角落:将 AI 作为思想伙伴
Lenny: 我想用这个话题作为我们最后一个环节的引子:AI 角落。你个人在工作或生活中,是如何使用 AI 来提升效率的?
Brendan Foody: 我用它来写很多文档。我还会向它请教问题,把它当作一个思想伙伴来一起推理。因为有时候,通过交谈来思考问题会更有效,但我不可能把所有事情都和同事或身边的人讨论。
Lenny: 所以你主要用的是 ChatGPT 的语音模式吗?
Brendan Foody: 是的,我很喜欢 ChatGPT 的语音模式。虽然还有改进空间,但我对语音交互的未来非常期待。
Lenny: 我给你看个我做的东西。我本来没打算说这个,但有个叫 Eric Antonow 的人,很多人推荐我请他上播客。他是一个很有创意的产品人,他做了一个叫 Parrot GPT 的项目,就是把 ChatGPT 植入一个毛绒玩具里,然后跟它对话。所以我自己做了一个智慧猫头鹰。
Brendan Foody: 哇。
Lenny: 你在里面缝一个扬声器,下面放一块磁铁,就可以把它放在肩膀上,然后……
Brendan Foody: 这太可爱了。我得去搞一个。我家里有语音助手,但我真的很想要一个 ChatGPT 的语音助手。
Lenny: 是的,我也在想,为什么我们不能有一个随时在听我们说话的 ChatGPT 语音助手呢?手机上的会休眠,很麻烦。
Brendan Foody: 没错。
Lenny: 他发起了一个 Kickstarter 众筹项目,可以教你怎么做一个。
Brendan Foody: 太好了。
勇于实践,大胆创造
Lenny: Brendan,在我们进入闪电问答环节之前,你还有什么想分享的吗?
Brendan Foody: 我想回到“主动性”和“放手去做”这个话题上。我鼓励大家,尤其是现在有了 AI,创造东西变得容易多了,要主动去构建产品,与客户交流,迈出那一步。我认为,这在很多方面是阻碍经济创新的最大障碍。
Lenny: 是的,很多人只是听播客、看文章,不断地输入,却没有任何行动。现在是创造和尝试的最佳时机。大家真的应该听从这个建议,放手去做,就像你可以把你的甜甜圈摊位挪 50 英尺,摆脱学校的管辖。
闪电问答环节
Lenny: 好的,Brendan,我们进入了激动人心的闪电问答环节。准备好了吗?
Brendan Foody: 准备好了。
Lenny: 你最常向别人推荐的两三本书是什么?
Brendan Foody: 我会推荐《高产出管理》(High Output Management),这是一本关于运营公司的绝佳书籍。第二本是《从 0 到 1》(Zero to One),这当然是经典之作。第三本是《鞋狗》(Shoe Dog),我觉得那是一个非常鼓舞人心的故事。
Lenny: 最近有没有让你非常喜欢的电影或电视剧?
Brendan Foody: 我很喜欢《奥本海默》(Oppenheimer)。我一直以来最喜欢的电视剧是《金装律师》(Suits)。所以如果说最近的,那就是《奥本海默》。
Lenny: 最近发现的让你爱不释手的产品是什么?
Brendan Foody: 我很喜欢用新版的 Codex。它是一个巨大的进步,非常了不起。
Lenny: 你有没有什么人生格言,在工作或生活中经常会想起或与人分享?
Brendan Foody: 我想就是我们之前谈到的:“你可以放手去做”(you can just do stuff)。勇敢地迈出那一步。
Lenny: 我还以为你会说“必能得”(Can do),那可是你 Twitter 个人资料里的。
Brendan Foody: 也可以是“必能得”。
Lenny: 最后一个问题。我们之前聊到,你其实有阅读障碍(dyslexic)。能和大家分享一下这件事吗?以及你是如何克服它,并建立起历史上增长最快的公司的?
Brendan Foody: 我从不隐瞒这件事,我的很多同事都知道。一方面,这确实让每天处理上千封邮件、阅读所有文件变得困难。但另一方面,我觉得它帮助我以不同的方式思考,变得更有创造力,也许能看到一些别人看不到的市场变化。
所以,到目前为止结果还不错。从管理的角度来看,这件事让我意识到,我们应该更多地关注如何发挥人们的长处,而不是去弥补短处。因为有些事我就是不擅长,也永远不可能成为世界上最好的,但有些事我可以通过努力去精进。
Lenny: 这也是这个播客上反复出现的主题:专注于你的优势,而不是把所有精力都花在你的弱点上。Brendan,这次访谈非常精彩,我学到了很多。最后,人们该如何了解你正在做的事情?你们在招聘哪些职位?听众能为你做些什么?
Brendan Foody: 我们正在大规模招聘,包括运营团队的战略项目负责人、工程团队的软件工程师以及研究员。请访问 mercore.com,我们非常期待与你合作。这是对我们最大的帮助。
也请把这个机会分享给你的朋友。我们平台上一半以上的人才都来自推荐,因为我们有一个非常热爱我们的用户社群。所以,无论你是想申请职位,还是推荐朋友,我们都非常欢迎。
Lenny: Brendan,非常感谢你。
Brendan Foody: 谢谢你的邀请。
Lenny: 感谢大家的收听。如果你觉得本期内容有价值,可以在 Apple Podcasts、Spotify 或你喜欢的播客应用上订阅我们的节目。也请考虑给我们评分或留言,这对我们帮助很大。你可以在 lennyspodcast.com 上找到所有往期节目。我们下期再见。
