Ilya Sutskever – 我们正从扩展时代迈向研究时代

内容概要

在这次谈话中，Dwarkesh Patel 邀请了 Ilya Sutskever 探讨人工智能的现状与未来。他们讨论了 AI 发展正从“扩展（Scaling）时代”过渡到全新的“研究（Research）时代”，并深入剖析了当前预训练（Pre-training）和强化学习（Reinforcement Learning）范式的局限性。Ilya 解释了模型能力的“参差不齐（Jaggedness）”现象，价值函数（Value Functions）与情绪在学习中的潜在作用，以及为何人类的泛化能力仍显著优于 AI。讨论还涵盖了 SSI（Safe Superintelligence Inc.）公司的策略，即关于是“直接冲刺（Straight-shotting）”超级智能还是采取渐进式部署的权衡，以及如何在强大的 AI 系统中实现安全与对齐（Alignment）。

解释模型能力的参差不齐

Dwarkesh Patel： 这一切都是真的，这太疯狂了。

Ilya Sutskever： 是的。你指什么？你不这么认为吗？

Dwarkesh Patel： 我的意思是，所有关于 AI 的事情，整个领域的发展，难道不像是直接从科幻小说里走出来的吗？

Ilya Sutskever： 是的。

Dwarkesh Patel： 另一件疯狂的事是，这种“缓慢起飞（Slow takeoff）”的感觉是多么常态化。如果我们将 GDP 的 1% 投入到 AI 中，我觉得这本该是一件更轰动的事情。但现在感觉大家很快就习惯了，事实证明确实如此。

Ilya Sutskever： 是的，但这也有点抽象。这到底意味着什么？你在新闻里看到某某公司宣布了巨额投资，这只是你看到的表面，目前还没有以其他方式真切地感受到。

Dwarkesh Patel： 是的。我们从这里开始聊吧，我觉得这个讨论很有趣。我认为你的观点——从普通人的角度来看，并没有什么太大的不同——即使进入“奇点（Singularity）”阶段，这种情况也会持续下去。

Ilya Sutskever： 不，我不这么认为。

Dwarkesh Patel： 有趣。

Ilya Sutskever： 我之前指的“感觉没什么不同”，是因为某某公司宣布了一个难以理解的巨额投资数字，我觉得没人知道那意味着什么。但我认为 AI 的影响将被切身感受到。AI 将渗透到整个经济中，这背后有强大的经济驱动力，我认为这种影响会非常强烈。

Dwarkesh Patel： 你预计这种影响何时到来？我觉得模型似乎比它们产生的经济影响更聪明。

Ilya Sutskever： 是的，这是目前关于模型最令人困惑的事情之一。如何调和这一事实：它们在评估（Evals）上表现得非常好——你看着评估结果会说，“这些是很难的测试，它们做得太好了”——但经济影响似乎大大滞后。

这很难解释，模型怎么能在一方面做些惊人的事情，另一方面又会在某些情况下陷入循环？举个例子，假设你用 AI 编程，遇到一个 Bug，你让模型修复它。模型说：“天哪，你是对的，有个 Bug，让我修一下。”结果它引入了第二个 Bug。然后你告诉它：“你又有了这个新 Bug。”它说：“天哪，我怎么会这样？你是对的。”然后它又把第一个 Bug 带回来了。你可以在这两个 Bug 之间来回循环。这怎么可能？

我有两个可能的解释。第一个解释比较异想天开：也许强化学习（RL）训练让模型变得有点过于单一和狭隘，有点过于“无意识”，尽管它在其他方面让模型变得更有意识。这导致它们无法完成基础的事情。

但还有另一个解释：在人们做预训练（Pre-training）时，“用什么数据训练”这个问题已经有了答案，那就是所有数据。做预训练时你需要所有数据，所以不需要纠结选这个还是选那个。

但当人们做 RL 训练时，他们需要思考。他们会说：“我们要为这个任务做这种 RL 训练，为那个任务做那种 RL 训练。”据我所知，所有公司都有团队专门生成新的 RL 环境并加入到训练组合中。问题是，这些环境是什么？

自由度太高了，你可以生成的环境种类繁多。我认为有一件事是无意中发生的：人们从评估标准（Evals）中汲取灵感。你会说：“我希望我们的模型在发布时表现出色，我希望评估数据看起来很棒。”那么什么样的 RL 训练能在这个任务上有所帮助呢？

我认为这种情况确实存在。如果将此与模型泛化能力（Generalization）实际上的不足结合起来，这可能解释了我们看到的很多现象，即评估表现与实际现实世界表现之间的脱节——我们今天甚至还没有完全理解这其中的确切含义。

Dwarkesh Patel： 我喜欢这个观点：真正的“奖励黑客（Reward Hacking）”其实是那些过于关注评估标准的人类研究员。我认为有两种方式来理解你刚才指出的问题。

第一，如果仅仅通过在编程竞赛中变得超人般的强大，并不能让模型自动变得更有品味、更懂得如何改进代码库，那么你应该扩展环境套件，不仅仅测试它在竞赛中的表现，还要看它能否构建最好的应用程序 X、Y 或 Z。

第二，也许这就是你暗示的：为什么在编程竞赛中成为超人就理应让你成为一个更有品味的程序员？也许我们要做的不是不断堆叠环境的数量和多样性，而是找出一种方法，让你从一个环境中学习，并提高你在其他事情上的表现。

Ilya Sutskever： 我有一个人类的类比可能很有帮助。以竞技编程为例。假设有两个学生。学生一决定要成为最好的竞技程序员，所以他为此练习了 10,000 小时。他解决了所有问题，记住了所有证明技巧，非常熟练地快速且正确地实现所有算法。因此，他成为了最强之一。

学生二觉得“竞技编程很酷”，也许只练了 100 小时，少得多。但他做得也很好。你认为哪一个在未来的职业生涯中会发展得更好？

Dwarkesh Patel： 第二个。

Ilya Sutskever： 对。我认为这基本上就是正在发生的事情。现在的模型更像第一个学生。甚至更甚，因为我们会说：“模型应该擅长竞技编程，所以我们要把史上所有的竞技编程题目都拿来，还要做数据增强生成更多题目。”

Dwarkesh Patel： 是的。

Ilya Sutskever： 我们在这些数据上训练。现在你得到了这个伟大的竞技程序员。通过这个类比，我觉得更直观——既然训练得这么充分，所有的算法和证明技巧都信手拈来，那么这种程度的准备并不一定能泛化到其他事情上，这就很合理了。

Dwarkesh Patel： 那么，第二个学生在进行那 100 小时的微调之前，他在做什么？这里的类比是什么？

Ilya Sutskever： 我觉得就是他们具备某种“特质（It factor）”。我在读本科时，记得确实有这样的学生，所以我知道这类人是存在的。

Dwarkesh Patel： 我觉得把这个与预训练区分开来很有趣。理解你说“预训练不需要选择数据”的一种方式是：其实这与那 10,000 小时的练习没有本质区别，只是你在预训练分布中免费获得了那 10,000 小时的练习。

但也许你的意思是，预训练其实并没有那么强的泛化能力，只是数据量太大了。它并不一定比 RL 泛化得更好。

Ilya Sutskever： 预训练的主要优势在于：A）数据量巨大；B）你不需要费心思考要把什么数据放进去。这是一种非常自然的数据，包含了人类的思想和投射在文本上的整个世界。预训练试图利用海量数据来捕捉这些。

预训练很难推理，因为很难理解模型依赖预训练数据的方式。当模型犯错时，是不是因为某些东西恰好没有被预训练数据充分支持？我不知道能不能补充更多有用的信息，但我认为预训练没有人类层面的类比。

情绪与价值函数

Dwarkesh Patel： 关于预训练的人类类比，人们提出过几个，我想听听你认为它们哪里可能不对。

一个是把它看作人生的前 13 到 18 年，虽然没有经济产出，但在更好地理解世界。另一个是把进化看作进行了 30 亿年的搜索，最终产生了一个人类生命实例。你认为这些是预训练的类比吗？如果不是，你如何看待人类的学习过程？

Ilya Sutskever： 我认为这两者与预训练都有相似之处，预训练试图扮演这两者的角色，但也存在巨大差异。预训练的数据量是惊人的。

Dwarkesh Patel： 是的。

Ilya Sutskever： 而一个人，即使过了 15 年，接触到的数据只是预训练的一小部分，知道的东西却少得多。

Dwarkesh Patel： 是的。

Ilya Sutskever： 但无论他们知道什么，似乎都知道得更深刻。至于进化，也许有些类似，但在这种情况下，进化可能实际上更有优势。

我记得读过一个神经科学的案例。了解大脑的一种方式是研究大脑受损的人。有一个案例，一个人因事故或中风导致负责情绪处理的脑区受损，他不再感受到任何情绪。结果是，他依然口齿伶俐，能解谜题，测试表现也很正常。

但他感受不到悲伤、愤怒或兴奋。结果他变得极其不擅长做任何决定。他会花几个小时决定穿哪双袜子，也会做出非常糟糕的财务决策。

Dwarkesh Patel： 这说明了我们要成为一个可行的智能体（Agent），内置情绪在决策中扮演了什么角色？联系到预训练，也许如果你能从预训练中充分提取信息，你也能获得这些。但这并不明显。

Ilya Sutskever： 这显然不只是情绪，似乎更像是一种几乎类似“价值函数（Value function）”的东西，它告诉你哪个决定会带来什么样的最终回报。

Dwarkesh Patel： 我认为它可以来自预训练，但这并不 100% 显而易见。

Ilya Sutskever： 那么在机器学习（ML）中，情绪的类比是什么？

Dwarkesh Patel： 应该是某种价值函数。但目前没有很好的类比，因为现在的价值函数在人们做的事情中并没有扮演非常突出的角色。

Ilya Sutskever： 也许值得为观众定义一下什么是价值函数。

Dwarkesh Patel： 当然。在强化学习中，通常的做法是：你有一个神经网络，给它一个问题，让它去解决。模型可能会进行数千、数万次操作或思考，然后产生一个解。解出来后，根据得分给轨迹中的每一个动作提供训练信号。

Ilya Sutskever： 嗯。

Dwarkesh Patel： 这意味着如果任务需要很长时间才能解决，你在提出解决方案之前不会进行任何学习。这是朴素的强化学习。

Ilya Sutskever： 这表面上也是 O1 和 R1 的做法。

Dwarkesh Patel： 价值函数的作用是，它可以告诉你（虽然不总是）你做得好还是坏。在某些领域价值函数更有用，比如下棋丢了棋子，你知道“我搞砸了”，不需要等到整局棋下完。

价值函数让你可以“短路”等待过程。假设你在做数学或编程，探索一个解题方向。思考了 1000 步后，你得出结论：这个方向没前途。一旦得出这个结论，你就可以在 1000 步之前当你决定走这条路时就获得奖励信号：“下次在类似情况下不要走这条路”，这远早于你真正提出解决方案的时候。

Ilya Sutskever： 嗯。DeepMind 之前的论文提到，轨迹空间太宽，可能很难学习从中间轨迹到价值的映射。而且在编程中，你可能会有一个错误的想法，然后回溯并修改。

Dwarkesh Patel： 这听起来对深度学习缺乏信心。虽然可能很难，但没什么深度学习搞不定的……

Ilya Sutskever： 是的。我的预期是价值函数应该是有用的，我完全预计未来会被使用，如果还没有被使用的话。

Dwarkesh Patel： 我之前提到的那个情绪中枢受损的案例，更多是想说明，也许人类的价值函数在某种重要方式上是由进化硬编码的情绪调节的，这对于人类在世界上有效生存很重要。

Ilya Sutskever： 这正是我打算问你的。关于情绪作为价值函数，有一点非常有趣：它们既有巨大的效用，同时又相当简单易懂。

Dwarkesh Patel： 我有两个回应。我同意，与我们讨论的这类大模型相比，情绪相对简单。它们甚至简单到可以画出人类可理解的图谱。

但在效用方面，这里有一个复杂性与鲁棒性（Robustness）的权衡。复杂的东西可能非常有用，但简单的东西在更广泛的情况下非常有用。一种解释是，我们的情绪大多是从哺乳动物祖先那里进化来的，然后在我们成为古人类时稍微微调了一下。

Ilya Sutskever： 不过我们确实有相当数量的社会性情绪，这是其他哺乳动物可能缺乏的。

Dwarkesh Patel： 但它们并不非常复杂，正因为不复杂，它们在这个与我们进化环境截然不同的世界里依然为我们服务得很好。当然它们也会犯错，比如饥饿感在食物丰富的世界里并没有正确引导我们。

我们在扩展什么？

Ilya Sutskever： 是的。人们一直在谈论扩展（Scaling）数据、参数、算力（Compute）。有没有更通用的方式来思考扩展？其他的扩展轴是什么？

Dwarkesh Patel： 这里有一个可能正确的视角。过去的机器学习，人们只是用各种东西尝试，试图得到有趣的结果。

然后“扩展定律（Scaling laws）”的洞见出现了，比如 GPT-3，突然每个人都意识到我们应该扩展。“扩展”虽然只是一个词，但它非常有力量，因为它告诉人们该做什么。

所以你说好的，我们在扩展什么？预训练就是那个被扩展的东西。它是一个特定的扩展配方。

Ilya Sutskever： 是的。

Dwarkesh Patel： 预训练的重大突破在于意识到这个配方是好的。如果你把一些算力和一些数据混合进一定规模的神经网络，你会得到结果，而且你知道只要按比例放大配方，效果会更好。

这对公司来说也很棒，因为它提供了一种风险很低的资源投资方式。相比之下，投资于研究要难得多（需要研究人员想出新东西），而预训练只要更多数据、更多算力，你就知道会有产出。

但某些时候，预训练的数据会用完。数据显然是有限的。那接下来做什么？你要么做一个升级版的预训练配方，要么做 RL，或者其他东西。

既然现在算力规模已经很大了，从某种意义上说，我们又回到了“研究时代”。也许换句话说：2012 到 2020 年是研究时代；2020 到 2025 年是扩展时代。但现在规模如此之大，难道真的相信只要再放大 100 倍，一切就会发生质变吗？我不这么认为。所以我们再次回到了拥有巨型计算机的研究时代。

Ilya Sutskever： 这是一个非常有趣的说法。但我问你刚才提出的问题：我们在扩展什么？拥有一个配方意味着什么？据我所知，目前还没有像预训练那样清晰的关系（类似物理定律），即数据/算力/参数与损失（Loss）之间的幂律关系。我们应该寻找什么样的关系？新配方可能是什么样子？

Dwarkesh Patel： 我们已经见证了从一种扩展类型到另一种的过渡：从预训练到 RL。现在人们在扩展 RL。根据网上的说法，现在花在 RL 上的算力甚至比预训练还多，因为 RL 非常消耗算力（长时间的推演/Rollouts）。

Ilya Sutskever： 是的。

Dwarkesh Patel： 所以你会消耗大量算力来生成这些推演，而每次推演学到的东西相对较少。我认为这甚至不该叫“扩展”，而应该问：你在做什么？这是利用算力最有效的方式吗？

如果你找到了完全不同的模型训练方式，你会说这是扩展还是仅仅是资源利用？这变得有点模糊。就像过去的研究时代，人们说“试试这个，试试那个，看，有趣的事情发生了”。我认为我们将回归这种状态。

Ilya Sutskever： 如果我们回到了研究时代，在这个配方中我们需要最深入思考的部分是什么？你说价值函数，人们已经在尝试了（如用大模型做裁判），但这听起来你有更根本的想法。我们是否需要重新思考预训练，而不仅仅是在流程末尾添加更多步骤？

Dwarkesh Patel： 关于价值函数的讨论，我想强调的是，价值函数会让 RL 更高效。但我认为最根本的问题是：这些模型的泛化能力不知为何比人类差得多。

Ilya Sutskever： 是的。

Dwarkesh Patel： 这非常明显。这似乎是一个非常根本的事情。

为什么人类的泛化能力强于模型

Ilya Sutskever： 好的，这是泛化的核心，有两个子问题。一个是关于“样本效率（Sample efficiency）”，为什么模型学习需要的数据比人类多这么多。

第二个问题，即使不谈数据量，为什么教模型我们要的东西比教人类要难得多？比如你指导研究员，你展示代码和思路，他们就能学会你的思维方式，不需要设置一个可验证的奖励函数。

也许这两个问题是相关的，但我很好奇这一方面（更像持续学习）和另一方面（样本效率）。

Dwarkesh Patel： 关于人类的样本效率，必须考虑的一个解释是进化。进化给了我们少量但最有用的信息。对于视觉、听觉和运动，进化确实给了我们很多。

Ilya Sutskever： 嗯。

Dwarkesh Patel： 比如人类的灵巧度远超机器人。要在现实世界中像人一样快速学会新技能，对机器人来说似乎遥不可及。这可能有进化的先验知识（Prior）。

你可以说视觉也是如此。Yann LeCun 提到孩子练习 10 小时就能学会开车。但我们的视觉太好了。我在 5 岁时就能很好地识别汽车，虽然那时我还没见过多少数据。但这可能是进化。

不过，语言、数学和编程，可能不是进化带来的。

Ilya Sutskever： 但在这些方面人类似乎仍比模型好。显然模型在语言、数学和编程的平均水平上优于人类，但它们在“学习”这方面比人类强吗？

Dwarkesh Patel： 哦是的。我想说的是，语言、数学和编程，尤其是后两者，表明让人类擅长学习的原因可能不是复杂的先验知识，而是某种更根本的东西。

Ilya Sutskever： 等等，我不确定我理解为什么会这样。

Dwarkesh Patel： 如果这种技能对我们的祖先有用了数百万年，你可以争辩说人类擅长它是源于进化的先验。但如果人类在一个最近才存在的领域（如编程）表现出强大的学习能力、鲁棒性，这更多表明人类可能就是拥有更好的机器学习算法。

Ilya Sutskever： 嗯。那我们该如何思考这到底是什么？

这有几个有趣点：样本更少，更无监督。你不需要设置可验证的奖励。青少年学开车不是靠预设的奖励，而是来自于与机器和环境的互动。

Dwarkesh Patel： 更加鲁棒。人类的鲁棒性令人震惊。

Ilya Sutskever： 是的。你有没有一种统一的方式来思考为什么这些事情同时发生？能实现这一点的 ML 类比是什么？

Dwarkesh Patel： 这就是为什么青少年能自我纠正而不需要外部老师：因为他们有价值函数，对吧？

他们有一种普遍的感觉，这种感觉在人类中极其鲁棒。无论人类的价值函数是什么，除了一些关于成瘾的例外，它实际上非常鲁棒。青少年开车时，他们立即能感觉到自己开得好不好，是否自信。

Ilya Sutskever： 好的。当然青少年的学习速度非常快。10 小时后就可以上路了。

Dwarkesh Patel： 似乎人类有某种解决方案。我们需要如何重新概念化模型的训练方式来让这成为可能？

Ilya Sutskever： 这是一个很好的问题，我有很多看法。但不幸的是，我们生活在一个并不是所有的机器学习想法都能自由讨论的世界里。这是其中之一。我认为这是可以做到的。人类的存在就是证明。

可能还有另一个阻碍：人类神经元进行的计算可能比我们要多。如果这是真的且起重要作用，那事情会更困难。但无论如何，我认为这指向了某种机器学习原则的存在。我有我的看法，但不幸的是情况让我很难详细讨论。

Dwarkesh Patel： （旁白与广告插入）Ilya 正在做的 SSI 的工作非常神秘，我只能从第一性原理思考 AGI 的瓶颈。这涉及到 RL 扩展。我读了一篇关于 RL 扩展的论文，发现 RL 的学习曲线像 S 形（Sigmoid），这很奇怪，因为预训练是幂律曲线。我想知道它们之间的联系，于是我求助于 Gemini 3。

Gemini 3 发现 RL 中单次结果的信息增益应建模为随机二元变量的熵。我看它生成的图表后，一切都说得通了。我又让它编写代码来验证这个理论，我直接把代码复制到 Google Colab 运行，一次 Bug 都没有。结果验证了我的假设：我们在开始时限制了监督学习的改进空间，应该随时间降低学习率。这解释了为什么我们需要学习率调度器。我通过 Gemini 3完成了从提出模糊问题到建立理论再到运行实验的整个流程。如果你想了解更多，可以去 gemini.google 看看。

直通超级智能

Dwarkesh Patel： 我很好奇，如果你说我们要回到研究时代——你经历了 2012 到 2020 年——现在的氛围会是什么样的？

比如 AlexNet 之后，用于实验的算力一直在增加。你认为现在的研究时代依然需要巨大的算力吗？还是需要回去翻阅旧论文？你在 Google、OpenAI 和斯坦福时，那种研究氛围是怎样的？

Ilya Sutskever： “扩展时代”的一个后果是：扩展吸干了房间里所有的空气。

Dwarkesh Patel： 是的。

Ilya Sutskever： 因为扩展吸干了空气，每个人都开始做同样的事情。我们要么处于一个公司数量远多于想法（Ideas）的世界。

硅谷有句名言：想法是廉价的，执行就是一切。

Dwarkesh Patel： 是的。

Ilya Sutskever： 这有一定道理。但我看到有人在推特上说：“如果想法这么廉价，为什么没人有想法呢？”这也是真的。如果你从瓶颈的角度思考研究进展：一个是想法，一个是将其变为现实的能力。

Dwarkesh Patel： 是的。

Ilya Sutskever： 这可能涉及到算力或工程。回到 90 年代，有些人有好想法，但如果他们没有更大的计算机，就无法证明想法可行。所以瓶颈是算力。

在扩展时代，算力大幅增加。现在算力足够大，以至于要证明一个想法并不明显需要更多的算力。

给你一个类比：AlexNet 是在 2 个 GPU 上构建的。Transformer 是在 8 到 64 个 GPU 上构建的。2017 年没有一个 Transformer 实验用了超过 64 个 GPU，这大概相当于今天的 2 个 GPU。ResNet 也是如此。你甚至可以争辩说 O1 的推理并不是世界上最耗算力的事。

所以对于研究，你肯定需要一些算力，但这远不是说你需要绝对最大量的算力。你可能会争辩，如果你想构建绝对最好的系统，拥有更多算力是有帮助的。特别是当每个人都在同一个范式内时，算力就成了巨大的差异化因素。

Dwarkesh Patel： 听起来过去可以用极少的算力开发想法。Transformer 并不是一出来就出名，而是经过在更高算力层面的验证后才成为每个人都做的事情。

如果你在 SSI 有 50 个不同的想法，如果没有其他前沿实验室那样的算力，你怎么知道哪一个是下一个 Transformer？

Ilya Sutskever： 我可以简短评论一下。对于 SSI 来说，我们拥有的研究算力其实并不小。

SSI 筹集了 30 亿美元。这绝对不是小数目。虽然其他公司筹集得更多，但他们的大部分资金是专门用于推理（Inference）的。这是第一点。

第二，如果你有产品，你需要庞大的工程师和销售团队。很多研究资源被用于开发产品功能。所以当你通过这些过滤后看实际上留给研究的资源，差距就小得多了。

另外，如果你在做不同的事情，你真的需要绝对最大规模来证明吗？我不这么认为。我认为我们有足够的算力来说服自己和其他人我们做的是正确的。

Dwarkesh Patel： 像 OpenAI 这样的公司每年仅在实验上就花费数十亿，这还不包括推理。似乎他们一年的实验支出比你们的总资金还多。

Ilya Sutskever： 这是关于你如何使用它的问题。他们有更多的需求，更多的工作流，不同的模态。资源变得分散了。

Dwarkesh Patel： SSI 将如何赚钱？

Ilya Sutskever： 我现在的回答是：我们就专注于研究，答案会自然显现。

Dwarkesh Patel： SSI 的计划仍然是“直通（Straight-shot）”超级智能吗？

Ilya Sutskever： 也许。我认为这有其优点，因为不受日常市场竞争的影响非常好。但我认为有两个原因可能会导致我们改变计划。

一是务实原因：如果时间线变长了。二是，我认为最强大的 AI 能够面世并影响世界，这其中有巨大的价值。

Dwarkesh Patel： 那为什么你的默认计划是直通？其他公司（OpenAI, Anthropic）的想法是，我们有越来越弱的智能让公众逐渐习惯并准备好。为什么直接构建超级智能可能更好？

Ilya Sutskever： 我会阐述正反两方面的理由。支持的理由是：在市场中你必须参与“老鼠赛跑（激烈的竞争）”。这种竞争会让你面临艰难的权衡。说“我们将把自己与这些隔绝开来，只专注于研究，不到准备好绝不出手”，这很好。

但反方观点也有效。世界看到强大的 AI 是有用的。因为这是沟通 AI 的唯一方式。不是沟通关于 AI 的想法，而是沟通 AI 本身。

Dwarkesh Patel： 你说沟通 AI 是什么意思？

Ilya Sutskever： 假设你读了一篇关于 AI 的文章，说 AI 会这样那样，这只是一篇有趣的文章。但如果你看到 AI 真的在做这些事，那是无法比拟的。

我认为 AI 公开面世有巨大的好处，这将是我们不完全采取直通策略的一个理由。

Dwarkesh Patel： 是的。另一件大事是，我想不出还有哪个工程学科是通过仅仅“思考”如何安全来让最终产品变得安全的。飞机事故率降低、Linux Bug 变少，主要是因为系统被部署到世界中，发现了故障并修正了。

我不确定 AGI 为什么会有所不同。尤其考虑到超级智能的危害不仅仅是某种恶意的“回形针制造机”，而是我们甚至不知道如何概念化人们与它的互动。逐渐接触似乎是分散影响并帮助人们准备的更好方式。

SSI 的模型将从部署中学习

（注：此部分在对话逻辑中与上一节紧密相连，主要体现在 Ilya 承认逐渐部署的重要性）

Ilya Sutskever： 我同意。这也是我改变想法的一个方面：我现在更加重视 AI 的增量部署和提前部署。

关于 AI 很困难的一点是，我们在讨论尚不存在的系统，很难想象它们。很难感觉到 AGI。我们可以谈论它，但这就像在年轻时谈论变老的感觉一样。

我想很多人无法想象未来的 AI，因为它与现在的太不一样了。我预测：随着 AI 变得更强大，人们的行为会改变，我们会看到各种前所未有的事情。

例如，竞争激烈的公司开始在 AI 安全上合作（如 OpenAI 和 Anthropic 的初步合作）。

我还坚持认为，随着 AI 变得更强大、更显眼，政府和公众会有采取行动的意愿。

另外，目前 AI 不让人觉得强大是因为它会犯错。但我认为某个时刻 AI 实际上会开始让人觉得强大。当那发生时，我们会看到所有 AI 公司在安全方法上的巨大转变。他们会变得更加偏执（Paranoid）。

对齐

Dwarkesh Patel： 在我看来，这是一种非常不稳定的情况。因为如果你有一个学习能力和人类一样好，但能合并大脑（这是人类做不到的）的东西，这在物理上是可能的。

这种东西会变得越来越聪明。你如何确保这一切顺利进行？SSI 的计划是什么？

Ilya Sutskever： 正如我所说，如果很难想象，你就必须展示这个东西。

还有第三件事需要发生：公司应该立志构建什么？

大家一直锁定在一个大想法上：自我改进的 AI（Self-improving AI）。为什么？因为想法比公司少。

但我认为有更好的东西值得构建：一个鲁棒地对齐到关心感知生命（Sentient life）的 AI。我认为构建一个关心感知生命的 AI 可能比构建一个只关心人类生命的 AI 更容易。因为 AI 本身将是有感知的。

如果你考虑到镜像神经元和人类对动物的同理心（这是因为我们用模拟自己的回路来模拟他人），我认为这是一种涌现属性。

Dwarkesh Patel： 即使你让 AI 关心感知生物——我不确定这是否是你应该尝试做的——如果解决了对齐问题，大多数感知生物仍将是 AI。会有数万亿的 AI。人类将只是感知生物的一小部分。所以如果不清楚目标是否是对未来文明的人类控制，我不确定这是不是最好的标准。

Ilya Sutskever： 确实。可能这不是最好的标准。我有两点要说。我认为关心感知生命是有价值的，应该被考虑。

第三，如果最强大的超级智能的权力在某种程度上受到限制（Capped），那将会有实质性的帮助。

Dwarkesh Patel： “顶部”有多大空间？你如何看待超级智能？它会像神一样吗？还是只是另一个智能体？

Ilya Sutskever： 我认为它肯定会非常强大。我认为最可能发生的是，会有多个这样的 AI 大致同时被创造出来。如果集群足够大（比如洲际规模），那东西确实会非常强大。

如果通过某种协议或限制来约束它们，那会很好。因为如果你有一个极其强大的系统，并让它以非常单一的方式去“关心感知生命”，我们可能不喜欢那个结果。

也许答案是你不要构建通常意义上的 RL 智能体。人类是半智能体（Semi-agent）。我们追求奖励，然后情绪让我们厌倦，转而追求别的。市场是一个短视的智能体。进化也是如此。

Dwarkesh Patel： 我们如何思考 AI 发展顺利是什么样子的？

Ilya Sutskever： 如果前 N 个这样的系统确实关心感知生命/热爱人类，那么这种状态可以维持相当一段时间。

然后是长期均衡的问题。长期来看，如果你有一个全民高收入的世界，这很好，但正如佛教徒所说，变化是唯一的常数。

我对长期均衡的一个（我不喜欢但需要考虑的）答案是：如果人类通过某种 Neuralink++ 成为 AI 的一部分。因为这样 AI 的理解就会完整地传递给我们。如果你在某种情况下，你也完全参与其中。我认为这是均衡的答案。

Dwarkesh Patel： 我在想，数百万年前进化的情绪依然强力指导我们的行为，这是否是对齐成功的例子？脑干（Brain stem）就像有一个指令：“与更成功的人交配”。大脑皮层（Cortex）理解“成功”在现代语境下的含义，但脑干能对齐皮层去追求这个指令。

Ilya Sutskever： 我觉得进化如何编码高层级的欲望是非常神秘的。进化很容易让我们喜欢好闻的食物（因为那是化学信号）。但进化也赋予了我们社会性欲望，比如关心社会地位。

这不是低级信号。大脑需要处理大量信息才能理解社会状况。而进化说“这就是你应该关心的”。它是怎么做到的？而且做得很快。

Dwarkesh Patel： 是的。

Ilya Sutskever： 我声称，很难想象基因组说“你应该关心你大脑大部分区域所做的某种复杂计算”。

我有个推测（虽然可能是错的）：也许进化硬编码了大脑的某个物理位置（GPS 坐标），说“当这个位置被激活时，这就是你在乎的”。

Dwarkesh Patel： 但有反例，比如盲人的视觉皮层被其他感官征用，或者切除半个大脑的人。

Ilya Sutskever： 我完全同意。切除半脑的人依然有这些功能，说明位置不是固定的。所以那个理论是错的。但这仍是一个谜：进化不知何故能让我们非常可靠地关心社会性事物。

“我们是一家彻底的‘研究时代’公司”

Dwarkesh Patel： SSI 打算做什么不同的事情？

Ilya Sutskever： 很简单，我认为有些想法是有前途的，我想去研究它们。如果关于理解泛化的这些想法是正确的，我们将拥有有价值的东西。

这会成真吗？我们在做研究。我们要彻底做一家“研究时代”的公司。我们在过去一年取得了很好的进展。

Dwarkesh Patel： 你的联合创始人最近去 Meta 了，有人问既然有突破为什么还会这样？

Ilya Sutskever： 我只陈述事实：我们在以 320 亿美元的估值融资，Meta 提出收购，我拒绝了。但我的前联合创始人某种意义上同意了，他因此获得了近期的流动性，他是唯一加入 Meta 的人。

Dwarkesh Patel： 听起来 SSI 的计划是当那个重要时刻到来时处于前沿。什么区分了 SSI 让超级智能顺利实现的方法？

Ilya Sutskever： 主要是技术路径。我们有不同的技术路径。但我认为最终策略会趋同：随着 AI 变强，大家会清楚应该做什么——比如让第一个真正的超级智能对齐、关心感知生命、民主等等。

Dwarkesh Patel： 你对这种能像人类一样学习并因此成为超人的系统的预测是什么？

Ilya Sutskever： 我觉得是 5 到 20 年。

Dwarkesh Patel： 在此期间，其他公司的现有方法会停滞吗？

Ilya Sutskever： 我认为可能会停滞。即使停滞，这些公司也能创造惊人的收入。

Dwarkesh Patel： 如果一家公司先得到这种持续学习的模型，为什么利益会广泛分配而不是被该模型公司独吞？

Ilya Sutskever： 我的直觉是，虽然理论上是“赢家通吃”，但实际上不会这样。就像过去一样，一家公司通过进步，另一家公司会赶上，通过价格战竞争。

如果你有多个狭义的超级智能 AI，竞争会通过专业化进行。就像生态位一样。

Dwarkesh Patel： 很多自我改进模型提到在服务器里放“一百万个 Ilya”。你怎么看并行化？

Ilya Sutskever： 会有边际收益递减。你需要的是思维不同的人，而不是完全一样的副本。

自我博弈与多智能体

Dwarkesh Patel： 为什么不同公司的 LLM 如此相似？即使人类团队比 AI 效率低，也许人类团队的多样性更有价值。如何让 AI 具有多样性？

Ilya Sutskever： 因为预训练。所有预训练模型都差不多，因为数据是一样的。差异化始于 RL 和后训练。

Dwarkesh Patel： 你过去暗示过自我博弈（Self-play）。

Ilya Sutskever： 自我博弈之所以有趣，是因为它提供了一种仅使用算力而不使用数据来创建模型的方法。

但在过去，自我博弈（竞争性）只能发展特定的技能（如谈判、冲突、策略）。它太狭窄了。

不过，自我博弈以另一种形式找到了家：比如辩论、证明者-验证者（Prover-verifier）、大模型作为裁判。

真正意义上的自我博弈是更广泛的智能体竞争的一个特例。如果你让多个智能体竞争，自然的反应是尝试变得不同。这可能会创造出方法多样性的激励。

研究品味

Dwarkesh Patel： 最后一个问题。什么是研究品味？作为许多深度学习重大事件（AlexNet, GPT-3 等）的合著者，你怎么产生这些想法？

Ilya Sutskever： 对我个人而言，指引我的是一种关于“AI 应该是什么样”的审美（Aesthetic），通过正确地思考人类是怎样的。

比如人造神经元的想法直接受大脑启发。为什么？因为大脑有很多神经元，感觉这就是关键。你需要某种改变神经元连接的局部学习规则。

再比如分布式表征的想法。神经网络应该从经验中学习。你会问自己：这是根本性的吗？

这很大程度上指引着我，寻找美感。美、简单、丑陋——没有丑陋的容身之地。只有美、简单、优雅和受大脑启发的正确性。所有这些必须同时存在。

它们存在得越多，你就越能确信这种“自上而下的信念（Top-down belief）”。当你做实验数据与你相悖时，这种信念支撑着你。因为有时只是有个 Bug，你怎么知道是该继续调试还是方向错了？

靠的是自上而下的信念：“事情必须是这样的。”基于这种多层面的美感和大脑的启发。

Dwarkesh Patel： 我们就聊到这里。非常感谢。

Ilya Sutskever： 非常感谢。

{{userData.name}}已认证

Ilya Sutskever – 我们正从扩展时代迈向研究时代

内容概要

目录

解释模型能力的参差不齐

情绪与价值函数

我们在扩展什么？

为什么人类的泛化能力强于模型

直通超级智能

SSI 的模型将从部署中学习

对齐

“我们是一家彻底的‘研究时代’公司”

自我博弈与多智能体

研究品味

2025 AI 现场：我们这一年的目击与狂想

揭秘！腾讯如何训练多智能体像专家一样设计游戏场景

ChatGPT Go：8 美元广告版，让大家都用得起！

用人类脑电波教 AI 开车，这位清华 90 后学者直言隐式信号里藏着 AGI 的关键 | 万有引力

实战指南｜手把手教您在 TPU 上免费使用 JAX 训练 GPT-2 模型

为什么撰写 AI 评估的专家正在创造历史上增长最快的公司 | Brendan Foody

大模型背后的“新搜索”生意，水有多深

DeepSeek 最强专业拆解来了，清交复教授超硬核解读