人工智能教母:李飞飞博士探讨职业发展、机器人技术及世界模型未来趋势


内容概要

在本次对话中,主持人 Lenny 邀请到了被誉为“AI 教母”的李飞飞 (Dr. Fei-Fei Li) 博士,共同探讨人工智能 (AI) 的历史与未来。李博士分享了她开创性的工作 ImageNet 背后的故事,正是这个数据集点燃了我们正身处的深度学习 (deep learning) 革命。他们还探讨了该领域的演进、当前模型的局限性、AI 的下一个前沿(例如世界模型 (world models) 和机器人技术),以及李博士“以人为本”的 AI 发展理念,包括她在斯坦福大学以人为本 AI 研究所 (Stanford's Institute for Human-Centered AI) 的工作。


目录

  • 认识李飞飞 (Dr. Fei-Fei Li) 博士

  • AI 的演进

  • ImageNet 的诞生

  • 深度学习的崛起

  • AI 与 AGI 的未来

  • 世界模型 (World Models) 介绍

  • AI 与机器人技术中的“惨痛教训”

  • 革命性产品 Marble 介绍

  • Marble 的应用与使用案例

  • 创始人的旅程与洞见

  • 斯坦福的“以人为本”AI

  • AI 在不同职业中的角色

  • 结论与最终思考


认识李飞飞 (Dr. Fei-Fei Li) 博士

Lenny (片段): 很多人称您为“AI 教母”。您的工作实际上是引领我们走出“AI 寒冬”的火花。

Fei-Fei (片段): 在 2015 年中到 2016 年中,一些科技公司会避免使用 AI 这个词,因为他们不确定 AI 是不是一个“脏词”。

大概 2017 年,才开始有公司称自己为 AI 公司。

Lenny (片段): 有一句话,我记得是您在国会作证时说的:“AI 毫无人造 (artificial) 可言。”

Fei-Fei (片段): 它的灵感源于人类,由人类创造,最重要的是,它影响着人类。我并不认为 AI 对就业或人类毫无影响。

事实上,我相信 AI 现在或未来所做的一切,都取决于我们,取决于人类。

我确实相信技术对人类来说是净积极的 (net positive),但我认为每一种技术都是一把双刃剑。

如果我们作为一个社会、作为个体没有做正确的事情,我们也会把事情搞砸。

Lenny (片段): 您当时有了一个突破性的洞察:我们可以训练机器像人一样思考,但它只是缺少了人类孩童时期学习所拥有的数据。

Fei-Fei (片段): 我选择通过视觉智能 (visual intelligence) 的视角来看待人工智能,因为人类是高度依赖视觉的动物。

我们需要用尽可能多的关于物体图像的信息来训练机器,但物体本身是极难学习的。

一个物体在图像上的呈现可以有无限多种可能性。

为了用成千上万个物体概念来训练计算机,你真的需要向它展示数百万个例子。

Lenny: 今天的嘉宾是李飞飞 (Dr. Fei-Fei Li) 博士,她被誉为“AI 教母”。在我们目前正经历的这场 AI 革命中,Fei-Fei 一直是许多重大突破的负责人和核心人物。

她率先创建了 ImageNet,这基本源于她意识到 AI 需要大量干净的、有标签的数据才能变得更智能,而该数据集成为了一个突破,引领了当前构建和扩展 AI 模型的范式。

她曾是谷歌云 (Google Cloud) 的首席 AI 科学家,那里诞生了许多早期重大的技术突破。她曾任斯坦福人工智能实验室 (SAIL, Stanford's Artificial Intelligence Lab) 的主管,那里培养了众多顶尖的 AI 人才。她还是斯坦福大学以人为本 AI 研究所 (Stanford's Human-Centered AI Institute) 的联合创始人,该研究所在 AI 的发展方向上扮演着至关重要的角色。

她还曾是 Twitter 的董事会成员。她被《时代》杂志评为 AI 领域 100 位最具影响力人物之一。她还是联合国顾问委员会的成员。我还可以继续罗列下去。

在我们的对话中,Fei-Fei 分享了 AI 领域发展至今的简要历史,包括一个令人震惊的事实:仅在 9 到 10 年前,称自己为一家 AI 公司基本等同于品牌的“死亡判决”,因为当时没人相信 AI 真的能成功。

今天则完全不同,每家公司都是 AI 公司。

我们还聊了她对 AI 未来将如何影响人类的看法,当前技术能带我们走多远,为什么她对构建“世界模型” (world model) 如此充满热情,以及世界模型到底是什么。

最激动人心的是,就在本播客发布之际,世界上首个大型世界模型 Marble 刚刚发布。任何人都可以在 marble.worldlabs.ai 上体验它。这太疯狂了,一定要去看看。

Fei-Fei 是一位杰出的人物,鉴于她对世界产生的巨大影响,她实在太低调了。所以我真的很高兴能邀请她来,向更多人传播她的智慧。

非常感谢 Ben Horowitz 和 Condoleezza Rice 为本次对话提供的选题建议。

如果您喜欢本播客,请别忘了在您常用的播客应用或 YouTube 上订阅和关注。接下来,在一段简短的赞助商介绍之后,我将为您带来与李飞飞博士的对话。

本期节目由 Figma 赞助播出,Figma Make 的缔造者。当我在 Airbnb 担任 PM 时,我仍记得 Figma 刚问世时的情景,以及它极大地改善了我们团队的协作方式。突然间,我可以让整个团队都参与到设计过程中,快速地对设计概念提供反馈,这让整个产品开发过程变得有趣多了。

但 Figma 似乎不像是为我准备的。它很适合对设计提供反馈,但作为一名构建者 (builder),我想创造东西。这就是为什么 Figma 推出了 Figma Make。只需几个提示 (prompts),你就可以把任何想法或设计变成一个功能齐全的原型或应用,任何人都可以对其进行迭代并与客户一起验证。

Figma Make 是一种不同氛围的代码工具,因为它完全内置于 Figma 中。你可以使用团队现有的设计构建模块,轻松创建外观精美、感觉真实,并与团队构建方式相关联的输出。

不要再花那么多时间告诉别人你的产品愿景,而是直接展示给他们看。使用 Figma Make 快速制作可返回代码 (codeback) 的原型和应用。请访问

查看。

您是否知道我有一个完整的团队在协助我制作播客和时事通讯 (newsletter)?我希望团队中的每个人都能在他们的岗位上感到快乐并茁壮成长。Justworks 深知,你的员工不仅仅是你的员工,他们是你的“人”。

我的团队分布在科罗拉多、澳大利亚、尼泊尔、西非和旧金山。如果要在全球范围内招聘员工,按时用当地货币支付薪酬,并 7x24 小时回答他们的人力资源问题,我的生活将会变得无比复杂。

但有了 Justworks,一切都变得超级简单。无论你是要设置自己的自动化薪资系统、提供优质福利,还是进行国际招聘,Justworks 都能为你和你的员工提供简单的软件和来自小型企业专家的 7x24 小时人工支持。

他们能妥善处理你的人力资源 (HR) 事务,这样你才能更好地对待你的员工。Justworks,为你的员工服务。


AI 的演进

Lenny: Fei-Fei,非常感谢您能来参加播客,欢迎您。

Fei-Fei: 我很高兴能来,Lenny。

Lenny: 我更高兴能邀请到您。能和您聊天真是太荣幸了。我想谈的内容太多了。您一直处在我们正目睹的这场 AI 爆发的中心,而且已经很长时间了。我们将讨论很多历史,我认为很多人甚至不知道这一切是如何开始的。但首先,我想读一段《连线》(Wired) 杂志对您的评价,好让大家有个概念,我也会在引言中分享您所有其他的卓越成就,但我觉得这是一个很好的切入点:

“Fei-Fei 是那一小群科学家之一,这个群体小到也许可以围坐在厨房餐桌旁,他们推动了 AI 近期取得的非凡进展。”

很多人称您为“AI 教母”(Godmother of AI)。与许多 AI 领袖不同,您是一位 AI 乐观主义者。您不认为 AI 会取代我们,不认为它会夺走我们所有的工作,也不认为它会杀死我们。所以我想从这里开始会很有趣:您对 AI 将如何随着时间推移影响人类有何看法?

Fei-Fei: 好的,Lenny,我必须澄清一点:我不是一个乌托邦主义者 (utopian)。我并不认为 AI 对就业或人类毫无影响。

事实上,我是一个人文主义者 (humanist)。我相信 AI 现在或未来所做的一切,都取决于我们,取决于人类。

我确实相信技术对人类来说是净积极的 (net positive)。如果你纵观人类文明的漫长进程,我认为我们从根本上说是一个创新的物种。回顾数千年前有文字记载的时代直到现在,人类一直在进行自我创新和工具创新。借此,我们改善了生活,优化了工作,建立了文明。我确信 AI 也是其中的一部分。

这就是我乐观的来源。但我认为每一种技术都是一把双刃剑。如果我们作为一个物种、一个社会、一个社区、一个个体没有做正确的事情,我们也会把事情搞砸。

Lenny: 有一句话,我记得是您在国会作证时说的:“AI 毫无人造 (artificial) 可言。”它的灵感源于人类,由人类创造,最重要的是,它影响着人类。我这里没有问题,但这真是一句很棒的话。

Fei-Fei: 是的,我对此感受很深。我在 25 年前进开始投身 AI 领域,在过去的 20 年里我一直在带学生。几乎每一位学生从我的实验室毕业时,我都会提醒他们:你们的领域叫人工智能 (artificial intelligence),但它毫无人造 (artificial) 可言。

Lenny: 回到您刚才的观点,既然这一切取决于我们,那么您认为我们需要做对哪些事情?我们该如何设定正确的轨道?我知道这是一个很难回答的问题,但您的建议是什么?您觉得我们应该……

Fei-Fei: 是啊,我们有多少小时来谈这个话题?

Lenny: 我们该如何对齐 AI (align AI)?好了,我们来解决它吧。

Fei-Fei: 我认为无论我们做什么,都应该成为负责任的个体。这是我们教育孩子的道理,也是我们作为成年人需要做到的。无论你参与 AI 发展、部署或应用的哪个环节——而且我们中的许多人,特别是作为技术专家,很可能同时处于多个环节——我们都应该像负责任的个体一样行事。

并且要真正关心这件事。我认为今天每个人都应该关心 AI,因为它将影响你个人的生活,影响你的社区,影响社会和子孙后代。作为一个负责任的人去关心它,这是第一步,也是最重要的一步。


ImageNet 的诞生

Lenny: 好的,那我们退一步,回到 AI 的起点。大多数人开始听说和关心 AI,大概也就是在几年前 ChatGPT 刚问世的时候。也许是三年前?

Fei-Fei: 三年前,差一个月就整整三年了。哇。

Lenny: 好的,ChatGPT 的问世是您心中的那个里程碑事件吗?好的。这和我的看法完全一致。但很少有人知道,在此之前有很长很长的历史,人们致力于研究它,那时它被称为机器学习 (machine learning),还有其他术语,现在统称为 AI。有很长一段时间,很多人在研究它,然后出现了人们所说的“AI 寒冬” (AI winter),人们几乎都放弃了。

人们确实放弃了,觉得这个想法行不通。而您的工作,实际上正是引领我们走出“AI 寒冬”的火花,并且直接促成了我们现在所处的世界——AI 是我们谈论的一切。正如您所说,它将影响我们做的每一件事。

所以我想,听您讲述那段简史会非常有趣:在 ImageNet 诞生前,世界是怎样的?您创建 ImageNet 的过程是怎样的?为什么它如此重要?以及之后又发生了什么?

Fei-Fei: 对我来说,我很难意识到 AI 对大家来说是如此新奇,因为我的整个职业生涯都投身于 AI。我内心的一部分感到非常满足,看到一个我刚成年时出于个人好奇心开始探索的领域,如今已成为改变我们文明的变革性力量。它确实是文明级别的技术。

这段旅程大约有 30 年,或者说 20 多年,这非常令人满足。

那么,一切是从哪里开始的呢?我甚至不算是第一代 AI 研究者。第一代真的要追溯到 50 年代和 60 年代。艾伦·图灵 (Alan Turing) 遥遥领先于他所在的时代,在 40 年代就向人类提出了一个大胆的问题:“机器能思考吗?” 当然,他对“思维机器” (thinking machine) 有一个特定的测试概念,那就是对话聊天机器人 (conversational chatbot)。按照他的标准,我们现在已经拥有了思维机器。

但那更多是一个启发灵感的轶事。这个领域真正开始是在 50 年代,计算机科学家们聚集在一起,研究如何使用计算机程序和算法来构建这些程序,让它们能做那些过去只有人类认知才能完成的事情。

这就是开端。1956 年的达特茅斯会议 (Dartmouth workshop) 上,我们的“开山鼻祖”们,比如后来来到斯坦福大学的 John McCarthy 教授,创造了“人工智能”这个词。

在 50、60、70 和 80 年代,是 AI 探索的早期阶段。我们有了逻辑系统 (logic systems)、专家系统 (expert systems),也对神经网络 (neural network) 进行了早期探索。

然后到了 80 年代末、90 年代,以及 21 世纪的最初阶段,这大约 20 年的时间,实际上是机器学习 (machine learning) 的开端。它是计算机编程与统计学习的结合。

这种结合为 AI 带来了一个极其关键的概念:纯粹基于规则 (rule-based) 的程序,无法实现我们想象中计算机能做的那些海量的认知能力。因此,我们必须用机器来学习模式 (patterns)。一旦机器能够学习模式,它就有希望做更多的事情。

例如,如果你给它三只猫,你希望的不仅仅是机器能识别这三只猫,你希望机器能识别第四只、第五只、第六只以及所有其他的猫。这是一种学习能力,是人类和许多动物与生俱来的。我们这个领域意识到,我们需要机器学习。

这一直持续到 21 世纪初。我正是在 2000 年进入 AI 领域的,那时我刚在加州理工学院 (Caltech) 开始攻读博士学位。所以我是第一代机器学习研究者之一。我们当时已经在研究机器学习的概念,特别是神经网络。我记得那是我在加州理工的第一门课,就叫神经网络。

但那段时期非常痛苦。我们仍处于所谓的“AI 寒冬”之中,意味着公众对此关注不多,资金也不充裕,但同时也有很多思想在涌动。

我认为有两件事发生在我身上,让我的职业生涯如此接近现代 AI 的诞生:

我选择通过视觉智能 (visual intelligence) 的视角来看待人工智能。因为人类是高度依赖视觉的动物。我们稍后可以多谈谈,但我们智能的很大一部分是建立在视觉感知和空间理解之上的,而不仅仅是语言本身。我认为它们是互补的。所以我选择研究视觉智能。

在我的博士和早期教授生涯中,我和我的学生们都致力于一个“北极星问题”,那就是解决物体识别 (object recognition) 的问题。因为它是感知世界的基石,对吗?我们在世界各地活动,在物体层面上解释、推理并与之互动。我们不是在分子层面上与世界互动,我们也不是……虽然我们有时会,但很少。例如,当你想拿起一个茶壶,你不会说:“好的,这个茶壶由 100 块瓷片组成,让我来处理这 100 块瓷片。” 你会把它当作一个物体来互动。所以“物体”非常重要。

我是最早将此确定为“北极星问题”的研究者之一。但我认为,当时作为一名 AI 学生,然后是 AI 研究者,我研究了各种数学模型,包括神经网络、贝叶斯网络 (Bayesian network) 等等,都遇到了一个共同的痛点:这些模型没有数据可供训练。

作为一个领域,我们当时非常关注这些模型,但我突然意识到,人类的学习乃至进化,实际上是一个大数据的学习过程。人类通过海量的经验不断学习。如果你从时间维度看,动物也是通过不断体验世界来进化的。

所以,我的学生和我都推测,要让 AI 焕发生机,一个被严重忽视的关键要素是——大数据。


深度学习的崛起

Fei-Fei: 于是,我们在 2006、2007 年启动了 ImageNet 项目。我们雄心勃勃,想要获取互联网上所有关于物体的图像数据。当然,那时的互联网比现在小得多,所以我觉得这个雄心至少不算太疯狂。如果放到现在,想靠几个研究生和一位教授做到这一点,那就纯属妄想了。

但我们就是这么做的。我们精心筛选了互联网上的 1500 万张图片,创建了一个包含 22,000 个概念的分类系统 (taxonomy),这借鉴了其他研究者的成果,比如语言学家在 WordNet 上的工作(那是一种对词语进行字典化的特定方式)。我们将这些结合起来,构建了 ImageNet。

我们将其开源给研究社区,并举办了一年一度的 ImageNet 挑战赛 (ImageNet Challenge),鼓励所有人参与。我们自己也继续进行研究。

但 2012 年是关键时刻,许多人认为那是深度学习的开端或现代 AI 的诞生。因为由 Jeff Hinton 教授带领的一组多伦多研究人员,参加了 ImageNet 挑战赛,他们使用了 ImageNet 的大数据和两块英伟达 (Nvidia) 的 GPU,成功地创造了第一个神经网络算法。它并没有从根本上完全解决问题,但在解决物体识别问题上取得了巨大进展。

这三项技术的结合——大数据、神经网络和 GPU——成为了现代 AI 的“黄金配方”。

快进到 AI 的“大众时刻”,也就是 ChatGPT 时刻。如果你看看带来 ChatGPT 的要素,它在技术上仍在使用这三种成分。只不过现在是互联网规模的数据,主要是文本;一个比 2012 年复杂得多的神经网络架构,但仍是神经网络;以及多得多的 GPU,但仍是 GPU。这三种成分至今仍是现代 AI 的核心。

Lenny: 太不可思议了。我以前从未听过这么完整的故事。我喜欢这个故事,竟然只是两块 GPU。而现在,我不知道,可能是几十万块,而且性能强了无数倍。那两块 GPU 是他们买来的游戏 GPU 吗?就是去游戏商店买的,人们用来玩游戏的那种?

Fei-Fei: 没错。

Lenny: 正如您所说,这在很大程度上仍然是模型变得更智能的方式。现在世界上增长最快的一些公司,我基本都在播客上采访过他们,像 Scaleform、Surge 和 Scale,他们就在做这个。他们继续为各大实验室做这件事,只是给他们越来越多他们最感兴趣的、带标签的数据。

Fei-Fei: 是的,我记得 Scale 公司的 Alex Wang,在很早期的时候——我可能还留着他的邮件——他刚创办 Scale 时,他非常客气,一直发邮件告诉我 ImageNet 是如何启发了 Scale。我很高兴看到这一点。

Lenny: 您分享的故事中,另一个我非常喜欢的点是关于“高能动性” (high agency) 和“只管去做”的例子。这在 Twitter 上很流行,就是“你可以放手去做”。您当时就觉得,这可能是推动 AI 发展所必需的。那时候它还叫机器学习,对吧?那是大多数人用的术语吗?

Fei-Fei: 我觉得这两个词是换着用的。确实如此。我记得一些科技公司——我就不点名了——在早期,大概 2015 年中到 2016 年中,一些科技公司会避免使用 AI 这个词,因为他们不确定这是不是一个“脏词”。

我记得我当时实际上在鼓励大家使用 AI 这个词,因为对我来说,这是人类在探索科学和技术的过程中,提出过的最大胆的问题之一。我为这个词感到非常自豪。但是的,在刚开始,有些人确实不确定。

Lenny: 那大概是哪一年?AI 被……

Fei-Fei: 2016 年。我觉得那是不到 10 年前的事。那是一个转折点,有些人开始叫它 AI。但如果你看看硅谷的科技公司,追溯他们的营销术语,我认为大约 2017 年,才开始有公司称自己为 AI 公司。

Lenny: 这太不可思议了,世界变化得如此之快。现在,仅仅 9 年左右,你已经不能不称自己为 AI 公司了。

Fei-Fei: 我知道。

Lenny: 天啊。好的,在早期历史中,还有什么是您认为人们不知道、但又很重要的,在我们讨论未来和您的工作之前?

Fei-Fei: 我想,就像所有的历史一样,我深知我被认可是历史的一部分,但背后有太多的英雄和研究者。我们谈论的是几代人的努力。在我自己的世界里,有太多的人启发了我,我在我的书里也谈到过。

但我确实觉得我们的文化,尤其是硅谷文化,倾向于将成就归功于某一个人。虽然我认为这有其价值,但我们必须记住,AI 是一个迄今已有 70 年历史的领域,我们经历了几代人的努力。没有人能独自走到今天。


AI 与 AGI 的未来

Lenny: 好的,那我想问您这个问题:感觉我们似乎总是站在 AGI (通用人工智能) 的悬崖边,这是一个人人都在谈论的模糊术语。AGI 要来了,它会接管一切吗?您如何看待我们距离 AGI 还有多远?您认为我们能沿着现在的轨迹达到 AGI 吗?还是需要更多的突破?您觉得现在的方法能让我们实现目标吗?

Fei-Fei: Lenny,这是一个非常有趣的术语。我不知道是否有人真正定义过 AGI。你知道,关于 AGI 有很多不同的定义,包括机器拥有某种“超能力”,或者机器在社会中成为“经济上可行的代理” (economically viable agent)——换句话说,能挣工资养活自己。这就是 AGI 的定义吗?

作为一名科学家,我非常严肃地对待科学。我进入这个领域,是因为我被那个大胆的问题所激励:“机器能像人一样思考和做事吗?” 对我来说,这永远是 AI 的“北极星”。从这个角度来看,我不知道 AI 和 AGI 之间有什么区别。

我认为我们在实现部分目标方面做得很好,包括对话式 AI,但我认为我们还没有完全征服 AI 的所有目标。我在想,如果我们的开创者艾伦·图灵今天还健在,你让他对比一下 AI 和 AGI,他可能只会耸耸肩说:“我在 1940 年代问的也是同一个问题。”

所以,我不想陷入定义 AI 和 AGI 的兔子洞。我觉得 AGI 更像是一个营销术语,而不是一个科学术语。作为一名科学家和技术专家,AI 是我的“北极星”,是我所在领域的“北极星”。我很高兴人们用他们喜欢的任何名字来称呼它。

Lenny: 那么我换一种方式问:您描述了从 ImageNet 和 AlexNet 发展至今的一些要素——GPU、数据(带标签的数据)、以及模型的算法。Transformer 似乎也是这个轨迹中重要的一步。您觉得这些要素的组合,能让我们得到一个聪明 10 倍的模型,一个能改变全世界的 东西吗?还是说您认为我们需要更多的突破?我知道我们要谈论世界模型 (world models),我认为那是其中一个要素,但除此之外,还有什么您觉得会停滞不前,或者觉得只要更多数据、更多算力、更多 GPU 就行了?

Fei-Fei: 哦,不,我绝对认为我们需要更多的创新。我认为,通过更多数据、更多 GPU 和更大的现有模型架构来进行扩展的“规模定律” (scaling laws),仍然有很大的探索空间。但我绝对认为我们需要更多的创新。

在人类历史上,没有任何一个严谨的科学学科发展到了一个可以说“我们完成了,我们不需要再创新了”的地步。而 AI,如果不是人类文明中最年轻的科学技术学科,也是其中之一。我们仍然只是触及了皮毛。

例如,就像我说的,我们稍后会谈到世界模型。今天,你拿一个模型,让它处理一段几个办公室房间的视频,然后让模型数一数椅子有多少把。这是一个蹒跚学步的孩子,或者一个小学生就能做到的事情。但 AI 无法做到这一点,对吧?

所以,今天的 AI 有太多事情做不到。更不用说思考,像艾萨克·牛顿 (Isaac Newton) 那样,观察天体的运动,然后推导出一个(或一组)控制所有物体运动的方程。那种水平的创造力、外推能力和抽象能力,我们今天根本无法让 AI 做到这一点。

再看看情商 (emotional intelligence)。如果一个学生走进老师的办公室,谈论他的动机、热情、该学什么、遇到了什么难题……尽管今天的对话机器人已经非常强大,但你无法从今天的 AI 那里获得那种程度的情感和认知智能。

所以我们还有很多可以做得更好的地方。我不认为我们的创新已经结束。

Lenny: 来自 DeepMind (Google) 的 Demis 最近有一个很有趣的采访,有人问他:“您觉得我们离 AGI 还有多远?它实现时会是什么样子?” 他提供了一个很有趣的衡量标准:如果我们给最前沿的模型提供截至 20 世纪末的所有信息,看看它能否提出爱因斯坦的所有突破。到目前为止,我们还差得很远,它们做不到。

Fei-Fei: 是的,我们做不到。事实上,情况更糟。让我们把所有数据都给 AI,包括牛顿当年没有的、现代仪器观测到的天体数据,然后让 AI 创造出 17 世纪的那些运动定律方程组。今天的 AI 仍然做不到。

Lenny: 好的,我听明白了,我们还有很长的路要走。


世界模型 (World Models) 介绍

Lenny: 好的,那我们来谈谈世界模型 (world models)。这对我来说,是您又一个遥遥领先于时代的绝佳例子。您很早就意识到,AI 和神经网络需要大量干净的数据才能学习。您谈论世界模型的理念也很久了。您创办了一家公司来构建……我们有语言模型,而这是一个不同的东西,这是世界模型。我们待会会讨论它是什么。

而现在,就在我准备这次采访时,伊隆·马斯克 (Elon) 在谈论世界模型,黄仁勋 (Jensen) 也在谈论世界模型,我知道谷歌也在研究这个。您已经在这条路上走了很久,而且就在本播客播出前,您刚刚发布了一个东西,我们稍后会谈到。

请谈谈,什么是世界模型?为什么它如此重要?

Fei-Fei: 我很高兴看到越来越多的人在谈论世界模型,比如 Elon 和 Jensen。我一生都在思考如何真正推动 AI 向前发展。过去几年,从研究界、OpenAI 以及所有这些地方涌现出的大型语言模型 (Large Language Models),即便是对我这样的研究者来说,也极具启发性。

我记得 GPT-2 问世时,大概是 2020 年底。我当时是斯坦福大学以人为本 AI 研究所 (Human-Centered AI Institute) 的联席所长(现在仍然是,但当时是全职)。我记得那时,公众还没有意识到大型语言模型的威力,但作为研究者,我们已经看到了,我们看到了未来。

我与我的自然语言处理 (NLP) 同事,如 Percy Liang 和 Chris Manning,进行了深入的交谈。我们讨论这项技术将会变得多么关键。斯坦福 AI 研究所 (HAI) 是第一个围绕基础模型 (foundation model) 建立完整研究中心的机构。Percy Liang 和许多研究者牵头发表了第一篇关于基础模型的学术论文。

所以这对我启发很大。当然,我来自视觉智能领域,我一直在思考,除了语言之外,我们还有很多可以推动的边界。因为人类,人类利用我们的空间智能 (spatial intelligence) 和对世界的理解做了很多事情,这些都超越了语言。

想象一个非常混乱的急救现场,无论是火灾、交通事故,还是一些自然灾害。如果你置身于那些场景中,思考人们是如何组织起来救援、阻止灾难扩大、灭火……这其中很大一部分是移动 (movements),是对物体、世界和情况的即时理解。语言是其中的一部分,但在很多情况下,语言无法帮你灭火。

那是什么呢?我思考了很久。与此同时,我做了大量的机器人研究。我突然意识到,连接语言之外的智能,连接具身智能 (embodied AI)(即机器人),连接视觉智能,这个关键的枢纽 (lynchpin) 就是这种对世界理解的空间智能。

就在那时,大概在 2024 年,我做了一次关于空间智能和世界模型的 TED 演讲。我从 2022 年开始,基于我对机器人和计算机视觉的研究,形成了这个想法。

然后,有一点对我来说非常清楚:我真的想和最聪明的技术专家一起工作,并尽快将这项技术带入现实。就在那时,我们创立了这家名为 World Labs 的公司。你可以看到,“世界” (World) 这个词就在我们公司的名字里,因为我们对世界建模 (world modeling) 和空间智能深信不疑。

Lenny: 人们已经习惯了聊天机器人,那是一个大型语言模型。那么,理解世界模型的一个简单方式是:你描述一个场景,它就能生成一个可以无限探索的世界吗?我们会链接到您发布的产品(稍后讨论),但这是不是一个简单的理解方式?

Fei-Fei: 这是其中的一部分,Lenny。我认为,理解世界模型的一个简单方式是,这个模型允许任何人通过提示 (prompting)——无论是一个图像还是一个句子——在脑海中创造任何世界。

并且能够在这个世界中互动,无论你是浏览、行走、捡起物体,还是改变事物。以及在这个世界中进行推理 (reason)。

例如,如果这个世界模型的输出的使用者是一个机器人,它应该能够规划路径,帮助整理厨房。所以,世界模型是一个你可以用来推理、互动和创造世界的基础。

Lenny: 好的。机器人似乎是 AI 研究者和未来世界影响力的下一个重大焦点。您在这里说的是,这是让机器人在现实世界中真正发挥作用所缺失的关键一环——理解世界是如何运作的。

Fei-Fei: 是的,首先,我确实认为除了机器人之外,还有更多令人兴奋的东西。不过,我完全同意你刚才说的。我认为世界建模和空间智能是具身智能缺失的关键一环。

我也认为,我们不要低估了人类也是具身智能的代理 (embodied agents),人类也可以通过 AI 的智能得到增强。就像今天,人类是语言动物,但我们在 AI 的帮助下得到了极大的增强,比如帮助我们完成语言任务,包括软件工程。

我认为我们不应该低估——或者说我们倾向于不谈论——人类作为具身智能的代理,实际上也能从世界模型和空间智能模型中获益良多,就像机器人一样。

Lenny: 所以这里的重大突破在于机器人——如果这能实现,那将是巨大的变革。想象一下我们每个人都有机器人在为我们做各种事情,它们进入灾区帮助我们,诸如此类。游戏,显然是一个很酷的例子,你可以凭空想象出可以无限玩下去的游戏。然后是创造力,享受乐趣、发挥创意、构思狂野的新世界和新环境。

Fei-Fei: 还有设计。人类设计从机器到建筑到家居的一切。还有科学发现,对吗?有很多。我喜欢用 DNA 结构发现的例子。

如果你回顾 DNA 发现史上最重要的片段之一,那就是罗莎琳·富兰克林 (Rosalyn Franklin) 拍摄的 X 射线衍射照片。那是一张平面的 2D 照片,显示了一个看起来像十字形的衍射结构。你可以去搜索那些照片。

但凭借那张 2D 的平面照片,人类——特别是两位重要人物,詹姆斯·沃森 (James Watson) 和弗朗西斯·克里克 (Francis Crick)——结合其他信息,在 3D 空间中进行了推理,推导出了 DNA 的高度三维双螺旋结构。

那个结构不可能是 2D 的。你无法在 2D 空间思考并推导出那个结构。你必须在 3D 空间中,运用人类的空间智能来思考。所以我认为,即使在科学发现中,空间智能或 AI 辅助的空间智能也是至关重要的。

Lenny: 这正是,我想是 Chris Dixon 曾说过的,“下一个伟大的事物,一开始看起来总像个玩具。” 当 ChatGPT 刚出来时,我记得 Sam Altman 只是发推说:“我们正在玩一个很酷的东西,大家看看。” 现在它成了历史上增长最快的产品,改变了世界。通常,那些看起来只是“酷”、“好玩”的东西,最终却最能改变世界。

本期节目由 Cinch 赞助播出,Cinch 是客户通信云。关于数字客户通信,无论是发送营销活动、验证码还是账户提醒,你都需要它们能够可靠地触达用户。这就是 Cinch 发挥作用的地方。

全球超过 15 万家企业,包括全球十大科技公司中的八家,都在使用 Cinch 的 API 将消息、电子邮件和通话功能构建到他们的产品中。

在消息传递领域,有一件大事正在发生,产品团队需要了解:富通信服务 (Rich Communication Services),简称 RCS。

你可以将 RCS 视为 SMS 2.0。你的用户将不再收到来自随机号码的文本,而是会看到你经过验证的公司名称和徽标,而无需下载任何新东西。这是一种更安全、更具品牌化的体验。此外,你还可以获得交互式轮播 (interactive carousels) 和建议回复 (suggested replies) 等功能。

为什么这很重要?因为美国运营商正开始采用 RCS。Cinch 已经在帮助全球主要品牌发送 RCS 消息,并且他们正在帮助 Lenny's Podcast 的听众在美国市场热潮来临之前抢先注册。

了解更多信息并开始使用,请访问

。网址是 s i


AI 与机器人技术中的“惨痛教训”

Lenny: 我联系了 Ben Horowitz,他非常欣赏您的工作,是您的忠实粉丝。他们是投资者,我没记错的话?

Fei-Fei: 是的,我们认识很多年了。是的,他们现在是 World Labs 的投资者。

Lenny: 太好了。我问他应该问您什么,他建议我问:“为什么‘惨痛的教训’ (the bitter lesson) 这一条理论不太可能单独在机器人领域奏效?” 那么,首先,请您解释一下“惨痛教训”在 AI 历史上是什么意思?然后,为什么它无法让我们在机器人领域达到我们想要的目标?

Fei-Fei: 首先,历史上有许多“惨痛教训”,但大家都在谈论的“惨痛教训”,是最近获得图灵奖的 Richard Sutton 写的一篇论文。他主要研究强化学习 (reinforcement learning)。

Richard 说,如果你回顾历史,特别是 AI 的算法发展史,事实证明,更简单的模型加上海量的数据最终总是会赢,而不是那些使用较少数据的、更复杂的模型。

我的意思是,这篇论文是在 ImageNet 问世多年后才出现的。对我来说,这一点也不惨痛,这是一个“甜蜜的教训” (sweet lesson)。这正是我构建 ImageNet 的原因,因为我相信大数据扮演着那样的角色。

那么为什么“惨痛教训”不能单独在机器人领域奏效?首先,我们必须承认我们今天的处境。机器人技术很大程度上仍处于早期实验阶段。这项研究的成熟度远不及语言模型。

许多人仍 在试验不同的算法,其中一些算法是由大数据驱动的。所以我认为大数据将继续在机器人技术中发挥作用。

但机器人技术的难点有几个。其一,获取数据更加困难。获取数据要难得多。你可能会说:“有网络数据啊。” 最新的机器人研究正在使用网络视频,我认为网络视频确实发挥了作用。

但是,想想语言模型成功的原因。作为一个从事计算机视觉、空间智能和机器人技术的人,我非常嫉妒我在语言领域的同事。因为他们有一个完美的设置:他们的训练数据是词语,最终是 token,然后他们生成一个输出词语的模型。

在你希望得到的东西(我们称之为目标函数 (objective function))和你的训练数据形态之间,你拥有完美的对齐。

但机器人技术不同,空间智能也不同。你希望从机器人那里得到动作 (actions),但你的训练数据缺乏在 3D 世界中的动作。而这正是机器人必须做的,对吗?在 3D 世界中执行动作。

所以你必须想办法,把一个“方钉子塞进圆孔”。我们拥有的是海量的网络视频。因此我们必须开始讨论补充数据,例如遥操作 (teleoperation) 数据或合成数据 (synthetic data),这样机器人才能在“惨痛教训”的假设下(即海量数据)进行训练。

我认为仍然有希望,因为即使我们正在做的世界建模,也将为机器人解锁大量此类信息。但我们必须谨慎,因为我们尚处于早期阶段,“惨痛教训”仍有待检验,因为我们还没有完全解决数据问题。

关于机器人技术的“惨痛教训”的另一部分,我认为我们应该非常现实地认识到的是——同样,与语言模型甚至空间模型相比——机器人是物理系统 (physical systems)。

所以机器人更接近于自动驾驶汽车,而不是大型语言模型。认识到这一点非常重要。

这意味着,要让机器人工作,我们不仅需要大脑,还需要物理身体。我们还需要应用场景。如果你看看自动驾驶汽车的历史,我的同事 Sebastian Thrun 在 2005 年还是 2006 年,带着斯坦福大学的汽车赢得了第一次 DARPA 挑战赛。

从那辆能够在内华达沙漠中行驶 130 英里的自动驾驶汽车原型,到今天在旧金山街头行驶的 Waymo,已经过去了 20 年,而且我们甚至还没有完全成功。还有很多工作要做。

那是 20 年的历程。自动驾驶汽车是更简单的机器人。它们只是在 2D 表面上运行的金属盒子,目标是不触碰任何东西。而机器人是在 3D 世界中运行的 3D 物体,其目标是触碰物体。

所以这个旅程将会……你知道,涉及很多方面和元素。当然,有人会说,自动驾驶汽车的早期算法是前深度学习时代的,所以深度学习正在加速“大脑”的发展。我认为这是对的。这就是为什么我投身于机器人技术和空间智能,并为此感到兴奋。

但与此同时,汽车工业已经非常成熟,产品化也涉及到成熟的用例、供应链和硬件。所以我认为现在是研究这些问题的非常有趣的时刻。但 Ben 是对的,我们在这项工作中可能仍会遇到许多“惨痛的教训”。

Lenny: 您是否曾对大脑的工作方式感到敬畏?它能为我们完成这一切。仅仅是让一台机器四处走动、不撞到东西、不摔倒,就如此复杂。这是否让您对我们已拥有的大脑更加敬佩?

Fei-Fei: 完全是。我们的大脑只靠大约 20 瓦的功率运行,比我现在所在房间的任何一盏灯泡都暗,但我们却能做这么多事情。所以,实际上,我越是研究 AI,就越是敬佩人类。


革命性产品 Marble 介绍

Lenny: 让我们聊聊您刚发布的这款产品。它叫 Marble,一个很可爱的名字。谈谈它是什么?为什么它很重要?我一直在试玩,它太不可思议了。我们会把链接放出来,供大家查看。Marble 到底是什么?

Fei-Fei: 是的,我很兴奋。首先,Marble 是 World Labs 推出的首批产品之一。World Labs 是一家前沿基础模型公司 (frontier model company)。我们由四位拥有深厚技术背景的联合创始人创立。我的联合创始人 Justin Johnson、Kristoff Lassner 和 Ben Mildenhall,都来自 AI、计算机图形学 (computer graphics) 和计算机视觉的研究领域。

我们相信,空间智能和世界建模,如果说不比语言模型更重要的话,至少也同样重要,并且与语言模型互补。因此,我们希望抓住这个机会,创建一个深度技术研究实验室,将前沿模型与产品连接起来。

Marble 是一个构建在我们前沿模型之上的应用程序。我们花了一年多的时间,构建了世界上第一个能够真正输出 3D 世界的生成模型 (generative model)。这是一个非常、非常困难的问题。

这是一个非常艰难的过程。我们拥有一支出色的创始团队,由来自顶尖团队的杰出技术专家组成。

大概一两个月前,我们第一次看到,仅通过一个句子、一张图片或多张图片进行提示 (prompt),就能创造出可以导航的世界。如果你把它放在 VR 眼镜里——我们提供了这个选项——你甚至可以在里面行走。

所以,尽管我们已经为此努力了很长时间,但那一刻仍然令人惊叹。我们希望把它交到需要它的人手中。我们知道,有那么多的创作者、设计师、考虑机器人模拟的人、考虑可导航、可交互、沉浸式世界不同用例的人、游戏开发者,会发现它很有用。

因此,我们开发了 Marble 作为第一步。它仍然处于非常早期的阶段,但它是世界上第一个做这件事的模型,也是世界上第一个允许人们仅通过提示就生成世界的产品。我们称之为“提示即世界” (prompt to worlds)。


Marble 的应用与使用案例

Lenny: 我已经试玩过了,它太疯狂了。比如,你可以拥有一个“夏尔” (Shire) 的小世界,你基本上可以在中土世界 (Middle Earth) 里无限行走。虽然里面还没有人,但这太疯狂了,你可以去任何地方。还有像“反乌托邦世界” (dystopian world),我正在看所有这些例子。

Fei-Fei: 是的。

Lenny: 实际上,我最喜欢的部分——我不知道这是特性 (feature) 还是 bug——在它真正渲染出所有纹理之前,你可以看到世界的“点阵”。我就是喜欢这种感觉,你能一窥这个模型到底在做什么。

Fei-Fei: 听到这个我太高兴了,因为这正是我作为一名研究者在学习的地方。引导你进入世界的“点阵”是一个有意为之的视觉特性,它不是模型的一部分。模型实际上只是生成了那个世界。我们试图找到一种引导人们进入世界的方式,许多工程师尝试了不同的版本,最终我们选择了“点阵”。

很多人,不只是你,告诉我们那种体验是多么令人愉悦。听到这个有意的、并非来自核心模型的视觉特性,却取悦了我们的用户,我们真的非常满足。

Lenny: 哇。所以你们添加这个是为了让它更……让人们更容易理解发生了什么,更愉悦?哇,这太有意思了。这让我想起了大型语言模型 (LLM),它们会“说出”自己在想什么、在做什么,虽然不是一回事。

Fei-Fei: 是的,是的。

Lenny: 这也让我想起了《黑客帝国》(The Matrix),这完全就是《黑客帝国》的体验。不知道这是不是你们的灵感来源。

Fei-Fei: 嗯,就像我说的,是几位工程师做的。这可能是他们的灵感,存在于他们的潜意识里。

Lenny: 好的,对于那些想要尝试一下,或者可能想使用它的人来说,目前有哪些应用是人们今天就可以开始使用的?你们这次发布的目 标是什么?

Fei-Fei: 是的,我们相信世界建模是高度“水平化” (horizontal) 的,但我们已经看到了一些非常令人兴奋的用例。

电影的虚拟制片 (Virtual production)。因为他们需要的是可以与摄像机对齐的 3D 世界,这样当演员在表演时,他们可以定位摄像机,很好地拍摄片段。我们已经看到了令人难以置信的用途。

事实上,不知道你有没有看过我们展示 Marble 的发布视频。它是由一家虚拟制片公司制作的。我们与索尼 (Sony) 合作,他们使用 Marble 来拍摄那些视频。我们与那些技术美术师和导演合作,他们说这将他们的制作时间缩短了 40 倍。

Lenny: 40 倍?

Fei-Fei: 是的。事实上,我必须这么做,因为我们只有一个项目月的时间来完成这个项目,而他们有太多的东西要拍。所以,使用 Marble 确实极大地加速了他们为视觉特效 (VFX) 和电影制作虚拟产品的进程。这是一个用例。

我们已经看到用户将我们的 Marble 场景,导出 mesh (网格) 文件,然后放入游戏中,无论是 VR 游戏,还是他们开发的有趣的普通游戏。

我们还展示了一个机器人模拟 (robotic simulation) 的例子。因为当我还是(现在也是)一名从事机器人训练的研究者时,最大的痛点之一是为训练机器人创造合成数据 (synthetic data)。

这些合成数据需要非常多样化,它们需要来自不同的环境,有不同的物体可供操纵。实现这一目标的一条路径是让计算机去模拟。否则,人类必须为机器人构建每一个单独的资产 (asset),那将花费太长时间。所以已经有研究人员联系我们,希望使用 Marble 来创建那些合成环境。

我们还收到了意料之外的用户垂询,关于他们想如何使用 Marble。例如,一个心理学团队联系我们,希望使用 Marble 进行心理学研究。

事实证明,他们研究的一些精神疾病患者,需要了解他们的大脑对不同特征的沉浸式场景(例如,杂乱的场景、干净的场景,或任何你能想到的场景)有何反应。而研究人员很难获得这种沉浸式场景。创造这些场景需要花费他们太长时间和太多预算。

而 Marble 提供了一种几乎是即时的方式,让他们获得了大量此类实验环境。

所以,我们目前看到了多种用例,但视觉特效师、游戏开发者、模拟开发者以及设计师都对此非常兴奋。

Lenny: 这正是 AI 领域的工作方式。我采访过其他 AI 领袖,他们总是说:“尽快、尽早地把东西发布出去,以发现最大的用例在哪里。” ChatGPT 的负责人告诉我,当他们刚发布 ChatGPT 时,他就在 TikTok 上看人们是怎么用它的,看他们在谈论什么。这让他们确信了该往哪个方向努力,也帮助他们看到了人们到底想怎么用它。

我很喜欢最后一个用于治疗的案例。我能想到比如恐高症、或处理蛇或蜘蛛,这太棒了。

Fei-Fei: 昨晚我一个朋友真的打电话给我,谈到他的恐高症,问我 Marble 是否能用上。

Lenny: 太神奇了。您直接就想到了。你知道,因为我正在想象所有的“暴露疗法” (exposure therapy),这类东西对那种治疗会非常有益。这太酷了。

好的,我之前应该问这个问题的,但我认为会有人问:这与 V3(Sora)或其他视频生成模型有何不同?对我来说这很清楚,但我觉得解释一下它与人们见过的所有视频 AI 工具有何不同,可能会有帮助。

Fei-Fei: World Lab 的核心论点是,空间智能 (spatial intelligence) 是至关重要的,而空间智能不仅仅是关于视频。事实上,世界并不是被动地观看视频流逝,对吗?

我非常喜欢柏拉图 (Plato) 的“洞穴寓言” (allegory of the cave) 来描述视觉。他说,想象一个囚犯被绑在椅子上——这不太人道,但是——在一个洞穴里,观看他面前墙上的一场完整的现场戏剧。但真正的戏剧,演员们表演的地方,是在他背后。那里有光照,所以动作的投影投射在了洞穴的墙壁上。

这个囚犯的任务就是弄清楚到底发生了什么。这是一个很极端的例子,但它确实展示并描述了视觉的本质:即从 2D 中理解 3D 或 4D 的世界。

所以对我来说,空间智能比仅仅创造那个平面的 2D 世界要深刻得多。空间智能对我来说是创造、推理、互动、理解深度空间世界的能力,无论是 2D、3D 还是 4D,包括动态等等。

World Lab 正专注于此。当然,创造视频本身的能力可能是其中的一部分。事实上,就在几周前,我们推出了世界上第一个在单块 H100 GPU 上的实时、可演示的视频生成。所以我们的技术也包括了那部分。

但我认为 Marble 非常不同,因为我们真心希望创作者、设计师、开发者能拥有一个可以为他们提供具有 3D 结构的世界的模型,这样他们才能将其用于工作。这就是 Marble 如此与众不同的原因。

Lenny: 在我看来,这是一个平台,为做各种事情提供了海量的机会。而视频,就像您描述的,只是“这是一个一次性的视频,很有趣、很酷”,然后就结束了,你看完就划走了。

Fei-Fei: 顺便说一句,在 Marble 中,我们可以允许人们以视频形式导出。所以你实际上可以,就像你说的,你进入一个世界,比如一个“霍比特人” (Hobbit) 的洞穴,你可以——特别是作为创作者——在导演的脑海中,以非常特定的轨迹移动摄像机,然后将它从 Marble 导出为视频。


创始人的旅程与洞见

Lenny: 打造这样的产品需要什么?团队有多大?你们用了多少 GPU?有什么可以分享的吗?我不知道这其中有多少是商业机密,但要发布这样的产品,都需要什么?

Fei-Fei: 这需要大量的脑力 (brain power)。我们刚才谈到,每个大脑大约 20 瓦。所以从这个角度看,这个数字很小,但它实际上是,你知道,(进化了) 5 亿年才赋予我们这种力量。

我们现在有一个 30 人左右的团队,绝大多数是研究员和研究工程师。但我们也有设计师和产品人员。我们坚信,我们要创建一家植根于空间智能深度技术的公司,但同时我们也在打造严肃的产品。

所以,我们实现了研发 (R&D) 和产品化的整合。当然,我们用了,你知道,大量的 GPU。这是技术上的……

Lenny: 我很高兴听到这些。恭喜你们的产品发布。我知道这是一个巨大的里程碑,这背后有海量的工作。我只想对您和您的团队表示祝贺。

我想谈谈您的创始人旅程。您是这家公司的创始人,您创办它多久了?几年了?两三年?

Fei-Fei: 哦,一年了。

Lenny: 一年。好的,18 个月,是的。好的,在您创业之初,有什么是您希望当时就能知道的?是您希望穿越回去,在 18 个月前的 Fei-Fei 耳边低语的?

Fei-Fei: 嗯,我一直希望能预知科技的未来。我认为,实际上,这是我们的创始优势之一,我们通常比大多数人更早地看到未来。但即便如此,天啊,这太令人兴奋了,太神奇了,有那么多未知和即将到来的事物。

但我知道你问我这个问题,不是关于技术的未来。你可能更想知道……看,我不是在 20 岁的时候创办这种规模的公司。我 19 岁时开过一家干洗店,但那个规模要小一点。

Lenny: 我们得聊聊那个。

Fei-Fei: 后来,我创办了谷歌云 AI 部门,然后在斯坦福创办了一个研究所。但那些都是不同的“野兽”。我确实觉得,与 20 岁的创始人相比,我对自己作为创始人的这段艰苦旅程,准备得更充分一些。

但我仍然感到惊讶,有时甚至因此陷入偏执 (paranoia),那就是 AI 领域的竞争是如此激烈,无论是模型、技术本身,还是人才。

你知道,当我创办公司时,我们还没有听说那些关于某些人才身价几何的惊人故事。这些事情不断地让我感到惊讶,我必须对此保持高度警惕。

Lenny: 您谈论的竞争是,是的,人才的竞争,以及事物发展的速度。

Fei-Fei: 是的。

Lenny: 您提到了一个我想回过头来谈的点。纵观您的职业生涯,您似乎总是在那些引领突破的核心人类圈子里。显然,我们谈到了 ImageNet,还有斯坦福的 SAIL(很多工作在那里发生),以及谷歌云(很多突破在那里发生)。

是什么指引您到了那些地方?对于那些寻求职业发展、希望站在未来中心的人们,这背后是否有一条主线?是什么推着您从一个地方到另一个地方,进入那些团体?这也许对人们有帮助。

Fei-Fei: 这确实是个好问题,Lenny,因为我确实思考过。显然,我们谈到了好奇心和热情,是它们带我进入了 AI 领域。这更像是一个科学上的“北极星”,我不在乎 AI 是否“流行”。

那是一部分。但我是如何最终选择在我工作过的特定地方——包括创办 World Labs——我想我非常感谢自己,或者感谢我父母的基因,我是一个在求知上 (intellectually) 无所畏惧的人。

我必须说,当我在招聘年轻人时,我也在寻找这种品质。因为我认为,如果一个人想要有所作为,这是一个非常重要的品质。

因为当你想有所作为时,你必须接受你正在创造新事物,或者你正在潜入一个人们从未涉足过的新领域。如果你有这种自我意识,你几乎必须让自己变得无所畏G惧,变得勇敢。

例如,当我来到斯坦福时,在学术界,我已经非常接近所谓的“终身教职” (tenure)——在普林斯顿大学 (Princeton) 获得“铁饭碗”。但我还是选择来到斯坦福。我爱普林斯顿,那是我的母校。只是在那个时刻,斯坦福有非常出色的人,硅谷的生态系统也非常棒,所以我愿意冒险,重新开始我的终身教职“计时”。

去担任 SAIL 的第一位女性主管时,相对而言,我当时还是一个非常年轻的教员。我之所以想那么做,是因为我关心那个社区。我没有花太多时间去想所有可能失败的情况。当然,我很幸运,更高资历的教授们支持我,但我就是想有所作为。

去谷歌也是类似。我想和 Jeff Dean、Jeff Hinton 以及所有这些杰出的人一起工作。

创办 World Labs 也是一样。我有这份热情,我也相信拥有相同使命的人能做出不可思议的事情。这就是我一路走来的指引。我不会过度思考所有可能出错的事情,因为那太多了。

Lenny: 我觉得这是一个重要的元素:不纠结于下行风险 (downside),更专注于人、使命、让你兴奋的事情。

Fei-Fei: 您觉得呢?我确实,是的。我想对所有 AI 领域的年轻才俊、工程师和研究者说一句话。因为你们中的一些人申请了 World Labs,我感到非常荣幸你们考虑了 World Labs。

我确实发现,今天许多年轻人在决定工作时,会权衡方程式中的每一个方面。在某种程度上,也许,你知道,也许这是他们想做的方式。但有时我确实想鼓励年轻人专注于重要的事情。

因为我发现自己,在与求职者交谈时,常常处于“导师模式”——不一定是招聘或不招聘,而仅仅是导师模式——当我看到一个极具才华的年轻人,在考虑一份工作时,过度关注每一个微小的维度和方面。

而也许最重要的是:你的热情在哪里?你是否认同这个使命?你是否相信并信任这个团队?专注于你能产生的影响,以及你能共事的工作和团队。

Lenny: 是的,这很艰难。对现在 AI 领域的人来说,这很艰难。有太多的信息,太多的新闻,太多的事情在发生,太多的“错失恐惧症” (FOMO)。

Fei-Fei: 没错。

Lenny: 我能理解那种压力。所以我认为您的建议非常重要:什么能真正让你在所做的事情中感到满足?而不仅仅是哪家公司增长最快,谁会赢。


斯坦福的“以人为本”AI

Lenny: 我想一定要问问您今天在斯坦福大学的工作,在 HCI…… 我想是 HAI,以人为本 AI 研究所 (Human-Centered AI Institute)。您在那里做什么?我知道这仍然是您在做的事情。

Fei-Fei: 是的,HAI,以人为本 AI 研究所,是我和一群教授,像 John Etchemendy 教授、James Landay 教授、Chris Manning 教授,在 2018 年共同创立的。那时我刚结束在谷歌的学术休假。

对我来说,那是一个非常非常重要的决定。因为我本可以留在工业界,但我在谷歌的经历教会我一件事:AI 将成为一项关乎文明 (civilizational) 的技术。

我突然意识到这对人类有多么重要。以至于我那年 (2018 年) 在《纽约时报》上写了一篇文章,谈论我们需要一个指导框架来开发和应用 AI。而这个框架必须植根于人类的福祉 (human benevolence),即“以人为本”。

我觉得斯坦福大学,作为世界顶尖大学之一,地处硅谷的心脏——这个诞生了从英伟达到谷歌等重要公司的地方——应该成为思想领袖,来创建这个“以人为本”的 AI 框架,并在我们的研究、教育、政策和生态系统工作中体现它。

所以我创立了 HAI。快进六七年,它已经成为世界上最大的 AI 研究所,在研究、教育、生态系统拓展和政策影响方面,践行“以人为本”的理念。

它汇集了斯坦福大学全部八个学院(从医学院到教育学院、可持续发展学院、商学院、工程学院、人文学院和法学院)的数百名教授。我们支持研究人员,特别是在跨学科领域,从数字经济到法律研究、政治学,再到新药发现、以及超越 Transformer 的新算法。

我们还特别关注政策。因为当我们创立 HAI 时,我意识到硅谷不与华盛顿特区、布鲁塞尔或世界其他地方对话。鉴于这项技术的重要性,我们需要让每个人都参与进来。

所以我们设立了多个项目,从国会训练营 (congressional bootcamp) 到《AI 指数报告》 (AI Index Report),再到政策简报。我们尤其参与了政策制定,包括倡导一项在特朗普政府第一任期内通过的《国家 AI 研究云法案》 (national AI research cloud bill),并参与了州一级的 AI 监管讨论。

我们做了很多工作。我将继续作为领导者之一,尽管我在运营上的参与少了很多。因为我关心的不仅是创造这项技术,更是以正确的方式使用它。


AI 在不同职业中的角色

Lenny: 哇,我之前都不知道您还在做所有这些工作。您刚才讲话时,我想起了查理·芒格 (Charlie Munger) 的一句话:“抓住一个简单的想法,并非常认真地对待它。” 我觉得您在很多方面都做到了这一点,并且坚持了下来。多年来,您在如此多的方面产生了令人难以置信的影响。

我就不进行“闪电问答”环节了,我只想问您最后一个问题。您还有什么想分享的,还有什么想留给听众的吗?

Fei-Fei: Lenny,我对 AI 感到非常兴奋。我想回答一个问题,这是我环游世界时,每个人都会问我的问题:如果我是一个音乐家,如果我是一个中学老师,如果我是一名护士,如果我是一名会计师,如果我是一个农民,我在 AI 时代还有立足之地 (role) 吗?还是说 AI 会直接接管我的生活或工作?

我认为这是关于 AI 最重要的问题。我发现在硅谷,我们往往不习惯与人们进行推心置腹的交流——那些像我们一样在硅谷的人,和那些不像我们的人,即我们所有人。我们倾向于抛出“无限生产力” (infinite productivity)、“无限休闲时间” (infinite leisure time),或者“无限力量” (infinite power) 之类的词汇。

但归根结底,AI 是关于人的。当人们问我这个问题时,我的回答是响亮的“是”。

每个人在 AI 中都扮演着一个角色。这取决于你做什么,你想要什么。但任何技术都不应剥夺人类的尊严 (human dignity)。人类的尊严和能动性 (agency) 应该处于每一项技术发展、部署和治理的核心。

所以,如果你是一个年轻的艺术家,你的热情是讲故事,那么拥抱 AI 作为工具。事实上,拥抱 Marble,我希望它能成为你的工具。因为你讲述故事的方式是独一无二的,这个世界仍然需要它。但你如何讲述你的故事,你如何使用最不可思议的工具,以最独特的方式讲述你的故事,这很重要,那个声音需要被听到。

如果你是一个即将退休的农民,AI 仍然很重要。因为你是一名公民,你可以参与你的社区,你应该在 AI 如何被使用、如何被应用上有发言权。你与你身边的人一起,可以鼓励大家使用 AI,让生活更轻松。

如果你是一名护士,我希望你知道,至少在我的职业生涯中,我投入了大量的精力在医疗健康研究上。因为我觉得 AI 技术应该极大地增强和帮助我们的医护人员,无论是智能摄像头提供更多信息,还是机器人辅助。因为我们的护士工作过度、疲惫不堪。随着社会老龄化,我们需要更多帮助来照顾人们。AI 可以扮演这个角色。

我只想说,这非常重要:即使是像我这样的技术专家,也真诚地相信——每个人在 AI 中都扮演着一个角色。


结论与最终思考

Lenny: 这是一个多么美好的结束方式。这完美地呼应了我们开始时的观点:这一切取决于我们,我们要为 AI 在我们生活中扮演的角色承担起个人责任。

最后一个问题,大家在哪里可以找到 Marble?他们可以去哪里?或者,如果他们想加入 World Labs,该怎么做?网站是什么?

Fei-Fei: World Labs 的网站是 www.worldlabs.ai。

在那里你可以找到我们的研究进展,我们有技术博客。你可以找到 Marble 这款产品,可以在那里登录。你也可以找到我们的招聘信息链接。我们base在旧金山,我们渴望与世界上最优秀的人才合作。

Lenny: 太好了。Fei-Fei,非常感谢您能来。

Fei-Fei: 谢谢你,Lenny。再见,各位。

Lenny: 非常感谢您的收听。如果您觉得本期节目有价值,您可以在 Apple Podcasts、Spotify 或您喜爱的播客应用上订阅本节目。也请考虑给我们评分或留言,这真的能帮助其他听众发现这个播客。您可以在 https://www.google.com/search?q=lennyspodcast.com 上找到所有往期节目或了解更多关于本播客的信息。我们下期节目再见。

AI 前线

Spring AI 1.0 GA 发布

2025-12-22 21:55:29

AI 前线

136: Sora 新世界 & Lovart 4 个月复盘 | 与陈冕聊怎么做垂类 Agent

2025-12-22 21:55:36

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索