本文深度访谈了英伟达 CTO 迈克尔·卡根,详细阐述了英伟达在 AI 时代超越摩尔定律的计算策略。他指出,随着 AI 模型规模的爆炸式增长,计算性能需实现每年十倍的提升,而实现这一目标的关键在于将计算定义从单一芯片扩展到整个数据中心。文章深入探讨了从“向上扩展”(NVLink 连接 GPU)到“横向扩展”(Mellanox 网络连接数据中心)的技术演进,强调了高性能网络在确保数万个 GPU 高效协同工作中的决定性作用,尤其是在低延迟和窄分布方面的要求。卡根还分析了万亿参数时代大规模 GPU 集群面临的可靠性与容错挑战,并提及英伟达通过 Bluefield DPU 在数据中心操作系统和安全隔离方面的应用,以及 Spectrum-X 技术在解决跨数据中心拥塞问题上的创新。生成式 AI 背景下推理工作负载的崛起及其对计算架构的深远影响也得到了深入剖析。最后,他展望了 AI 在辅助物理学发现、将历史变为实验科学以及作为“思想的宇宙飞船”扩展人类能力的巨大潜力,强调了英伟达双赢的生态文化和对未来创新的持续投入。

|城主说| 在人工智能革命的浪潮之巅,NVIDIA的崛起已成为科技史上最引人注目的篇章。聚光灯纷纷投向其强大的GPU芯片时,一个更深层次的战略布局却往往被忽视。
这是红杉资本今天最新放出的合伙人Pet Grady, Sonya Huang与英伟达首席技术官、半导体行业的传奇人物迈克尔·卡根(Michael Kagan)进行了一场深度对话。Michael Kagan详细阐述了从向上扩展(Scale-up)到横向扩展(Scale-out)的技术演进,分析了在十万级GPU集群下遇到的可靠性与性能挑战,并剖析了训练与推理工作负载的异同。访谈还展望了超越摩尔定律的性能增长新范式,以及人工智能在辅助物理学发现和扩展人类能力方面的巨大潜力。
这场访谈揭示了英伟达成功的“第一性原理”:在摩尔定律的物理边界前,是网络技术,而非单一芯片,最终定义了AI计算的规模与未来。卡根以其四十余年的行业洞察,为我们描绘了一幅宏大的技术图景——计算的前沿早已从单个芯片内部的晶体管竞赛,转向了如何将数十万个GPU通过网络,整合成一个有生命的、单一的巨型计算单元。这不仅是一场关于硬件的革命,更是一次关于计算架构的哲学重塑。
完整视频:
0:00:00 英伟达的双赢文化与发展战略
0:01:04 英伟达CTO迈克尔·科金介绍:从英特尔到Mellanox的历程
0:02:10 Mellanox对英伟达的重要性:指数级增长的计算需求
0:04:07 扩展计算规模:向上扩展与横向扩展
0:06:38 横向扩展与网络的作用
0:10:58 数据中心:单独的计算单元
0:11:46 数据中心网络:GPU连接与客户服务
0:13:47 Mellanox与NVIDIA的合并:双向互利
0:14:26 构建大型GPU集群的挑战与解决方案
0:17:51 分布式工作负载与数据中心挑战
0:20:25 训练与推理:生成式人工智能的需求
0:24:48 数据中心规模的推理与可编程性
0:26:58 数据中心扩展定律与能源限制
0:29:20 计算的演变:加速计算与通用计算的融合
0:31:56 Mellanox加入英伟达:文化融合与价值增长
0:35:18 科幻思考:AI与实验科学的未来
0:37:09 指数级增长的定律与不可预测的未来
0:39:19 人工智能的未来展望:赋能无限可能
核心观点摘要
-
• “我们将这个数据中心基本上看作是一个单独的计算单元。当你这样看待它时,你就会开始以全新的方式来架构你的组件、软件和硬件。”
-
• “本质上,网络决定了这个集群的性能。当你的通信受阻时,你就会浪费时间、精力和一切。”
-
• “对计算的推理需求实际上不低于训练。实际上甚至更多。你训练模型一次,但会进行数十亿次的推理。”
-
• “性能增长的斜率大约在每年10倍的范围内。我们已经将产品推出的速度从每两年加速到每年,而且这是一个数量级的提升。”
-
• “当你正在构建一台包含数百万个组件的机器时,一切正常工作的机会为零。你必须从一开始就为‘总有东西损坏’而设计。”
-
• “AI可以帮助我们了解一些我们现在甚至无法想象的物理定律。它将历史等学科变为一种实验科学。”
-
• “史蒂夫·乔布斯称计算机是思想的自行车。那么AI,它可能是一艘思想的宇宙飞船。”
超越摩尔定律:每年十倍的性能新纪元
长久以来,科技行业的进步与摩尔定律的节拍同步,即芯片上的晶体管数量大约每两年翻一番。但随着人工智能的爆发,这一经典增长曲线已远远无法满足需求。卡根指出,AI模型的规模和复杂性正以惊人的速度膨胀,这要求计算性能实现每年十倍乃至更高的指数级增长。
“过去就像摩尔定律,每隔一年翻一番,” 卡根解释道,“但一旦人工智能启动,模型的大小和容量开始每3个月翻一番,这现在需要每年10倍或16倍的性能增长。为了扩展这种规模,你需要在基础组件之上,以更高的维度开发解决方案。”
当单块硅片的物理极限日益临近,性能增长的瓶颈便出现了。英伟达的答案是,将计算的定义从“芯片”扩展到“系统”,再从“系统”扩展到整个“数据中心”。而实现这一跨越式构想的桥梁,正是高性能网络。
从“向上扩展”到“横向扩展”:将数据中心重塑为单一计算机
卡根将英伟达的扩展策略分为两个维度:“向上扩展(Scale-up)”和“横向扩展(Scale-out)”。
向上扩展,指的是在单个计算节点内部,突破单块GPU的限制。“这就是我们用NVLink所做的事情,” 卡根说。通过NVLink这样的高速互联技术,英伟达能将多个GPU紧密地连接在一起,“从软件接口来看,可以将多达72个GPU无缝扩展,使其表现得像一个单一的、巨大的GPU。” 这创造出了一个极其强大的基础计算构建模块,但它仍然受限于一个物理机箱。
真正的革命发生在“横向扩展”阶段,即如何将成千上万个这样的强大节点连接起来,协同完成一个前所未有的宏大任务。这正是Mellanox技术发挥核心价值的地方。
“横向扩展意味着你将许多这些构建模块连接在一起,在应用层面将任务拆分成多个部分,在这些大型机器上并行运行,” 卡根强调,“而这,再一次体现了网络的作用。” 在大规模AI训练中,任务被分解成数万个小块,分配给不同的GPU处理。计算完成后,结果需要被高效整合。这个“分配”与“整合”的过程,完全依赖于网络通信。
“关键在于,如果你的通信实际上阻碍了你,你就会浪费时间。因此,你需要做的,是进行非常快速且高度一致的沟通,” 他补充道。不同于传统网络只追求峰值带宽的“英雄数字”,AI集群要求网络延迟的“分布非常窄”,确保数万个GPU不会因为等待最慢的那个通信包而集体闲置。“本质上,网络决定了这个集群的性能。我们将这个数据中心基本上看作是一个单独的计算单元。”
万亿参数时代的极限挑战:当“一切正常”的概率为零
当数据中心的规模扩展到十万个GPU级别时,一个冰冷的现实便浮出水面:故障是常态,而非偶然。
“这是一个多阶段的挑战,” 卡根坦言,“如果你正在构建一台包含10万个GPU,即数百万个组件的机器,那么一切正常工作的机会为零。所以肯定有什么东西坏了。你需要从硬件和软件的角度来设计它,以尽可能高效地继续运行。”
这种规模下,整个数据中心运行的是一个单一的、紧密耦合的应用程序,而非传统数据中心里松散协作的微服务。这要求从底层硬件到系统软件都必须具备极高的容错能力和智能调度能力,以便在部分组件失效时,整个“巨型计算机”仍能继续运转。此外,管理跨越数公里、由光速延迟主导的多个数据中心之间的拥塞,也成了前所未有的挑战。英伟达为此开发的Spectrum-X等技术,正是为了解决这一极限规模下的物理难题。
范式转移:推理工作负载的崛起与演变
长期以来,AI计算的重心被认为是模型训练。然而,随着生成式AI的普及,推理(Inference)的需求正在爆炸式增长,其复杂性和计算量已经发生了质变。
“过去,推理主要是感知性的,比如识别一张图片是猫还是狗。那是单路径,” 卡根分析道,“但生成式AI带来了递归生成。你每生成一个令牌,就需要再次遍历整个机器。这已远超单次推理。”
更进一步,当AI开始进行“思考”,例如回答一个复杂问题时,它可能需要比较多个解决方案路径,每一次尝试都是一次推理。“如果你把所有这些东西结合起来,对计算的推理需求实际上不低于训练。实际上甚至更多,” 他给出了一个颠覆性的判断,“你训练模型一次,但会进行多次推理。ChatGPT有数十亿用户在不停地使用同一个模型。”
这种转变促使英伟达开始为不同的推理阶段(如计算密集型的预填充和内存密集型的解码)设计专门优化的GPU SKU,同时保持CUDA编程模型的一致性,让数据中心可以灵活地应对不断变化的工作负载。
思想的宇宙飞船:AI如何赋能科学发现的未来
当被问及对未来的科幻式思考时,卡根的视野超越了单纯的技术迭代,进入了科学与文明的层面。他认为,AI的终极潜力在于成为扩展人类认知边界的强大工具。
“AI在归纳、数据处理和观察方面非常出色,” 他展望道,“因此,AI可以帮助我们了解一些我们现在甚至无法想象的物理定律。” 借助强大的模拟能力,例如英伟达的“地球-2”气候模拟器,AI甚至可以将历史学、社会学等传统上无法实验的学科,转变为可以测试不同变量、观察长期后果的“实验科学”。
这最终回归到了一个关于人类与工具关系的经典比喻。“史蒂夫·乔布斯称计算机是思想的自行车,” 卡根总结道,“那么AI,它可能是一艘思想的宇宙飞船。有很多我想做的事情,但我没有足够的时间和资源。有了人工智能,我就会拥有它。我想做的事情将是今天我想做的100倍。”
天空之城全文整理版
序章:双赢文化与Mellanox的遗产
Michael Kagan: 英伟达最有趣的事情之一就是双赢的文化。我们不是为了从现有的蛋糕中拿走更大的一块,而是为了给所有人烤一个更大的蛋糕。我们的成功就是我们客户的成功。我们的成功不是竞争对手的失败。我认为,将传统计算、人机结合以及英伟达提供的加速计算融合在一起,实际上为英伟达和英特尔提供了进入市场的渠道,或者扩大了市场,并服务于那些原本更具挑战性的市场。
Sonya Huang: 我们很高兴今天能听到半导体行业传奇人物之一,英伟达的首席技术官迈克尔·科金的发言。迈克尔曾任英特尔的首席架构师,后来又担任Mellanox的联合创始人兼首席技术官,英伟达于2019年3月以70亿美元的价格收购了Mellanox。从那以后,迈克尔一直是英伟да成为人工智能计算平台霸主的主要推动力,这很大程度上归功于Mellanox和InterConnect在推动芯片超越摩尔定律方面的作用。
人工智能竞赛归根结底是一场硅竞赛,目的是从每个硅单元中尽可能地挤出最多的智能。迈克尔将带领我们踏上一段旅程,了解计算前沿是如何从将更多晶体管挤压到单个芯片上,发展到将成千上万甚至数十万个芯片集成到一个由网络或人工智能数据中心连接的单一结构中。迈克尔推动计算前沿发展已经超过四十年,我们很荣幸今天能邀请到他参加我们的节目。
我们现在和英伟达的首席技术官迈克尔·科金在一起,英伟达目前是世界上最有价值的公司。迈克尔,感谢你的参与。谢谢。我很荣幸。我想我们可以开始了。我们的合作伙伴肖恩,大约每六个月就会提出一个观点,即没有迈络思,就不会有英伟达。迈络思是你大约25年前共同创立的公司,并且直到今天你仍然是其中的一员。你能为我们描绘一下那幅景象吗?
第一章:网络——扩展AI计算的基石
Michael Kagan: 为什么收购迈络思对英伟达如此重要?在计算方面,世界正在发生巨大的转变,并且对计算的需求也在增长。而且是以指数级的速度增长。我们通常以线性方式估计其中一件事,但世界是呈指数级的。而现在的指数增长实际上已经加速。过去就像摩尔定律,这是一个基本的硅芯片定律。而且,你知道的,每隔一年翻一番。并且无论如何,你知道的,关于摩尔定律在物理学方面已经不再适用的讨论。
一旦人工智能启动,那是在2010-2011年,并且在图形处理单元(GPU)变成通用处理单元时启动,实际上,在这种情况下,运行工作负载是人工智能工作负载首次在GPU上运行,利用了这种机器的可编程性和并行性。对性能的要求开始以更高的系数增长。因此,模型的大小和容量开始每3个月翻一番,这现在需要每年10倍或16倍的性能增长,而过去是每隔一年翻两番。为了扩展这种规模,你需要创新,并且需要以比基本组件更高的规模开发解决方案。
这就是网络发挥作用的地方。这就是网络所在的地方。并且存在需要高速网络和高性能网络的多个层面的性能扩展。其中一种是我们称之为向上扩展。基本上,如果你回到CPU时代,向上扩展更多的是低功耗、更多晶体管,以及微架构的一些进步,比如乱序执行,以及后来的多核等等。所以这是计算的基本构建块。在GPU领域,基本构建块是GPU。为了扩展到超过单块硅片所能达到的程度,除了我们在微架构和先进技术方面所做的许多进步之外,实际上你需要在某种程度上做一些类似于多核CPU的事情,但规模要大得多。
这就是我们用NVLink所做的事情。这是一个向上扩展的解决方案。所以我们的GPU,我们今天所说的GPU,是一个机架大小的机器。你需要叉车才能抬起它。所以如果你在亚马逊上只订购GPU,不要惊讶你会看到这个巨大的机架...人们认为是芯片,但它实际上是一个系统。对。而这仅仅是一颗GPU。所以,基本构建模块,应用程序软件运行在其上的一个非常基本的计算机就是这个GPU。而且它不仅仅是硅。它不仅仅是硬件。它不仅仅是线路。而是还有一个软件层,它将CUDA作为API公开。而这实际上使得几乎可以无缝扩展。我稍微简化了一下这个故事,但是可以从过去是单个GPU的单个组件,一直无缝扩展到72个,同时保持相同的软件接口。
一旦你以在功率、成本、效率方面所能构建的最大程度获得了这个构建模块,那么你就可以开始横向扩展。横向扩展意味着你将许多这些构建模块连接在一起。现在在算法层面,在应用层面,你实际上将你的应用程序拆分成多个部分,在这些大型机器上并行运行。这又一次体现了网络的作用。
因此,如果你谈论向上扩展,你基本上就是创建了类内存域,使其超越单个计算节点或单个GPU。这实际上是Mellanox技术发挥作用的首要之处。因为在Mellanox被收购之前,英伟达通过NVLink进行的向上扩展仅限于单个节点机器。如果超出单个计算节点,例如有72个GPU,实际上是36台计算机。每台计算机有两个GPU,它们连接在一起,将所有这些呈现为单个GPU。获得单个节点之外的连接,不仅仅是将电线插入连接器。这需要大量的软件。这需要在网络中投入大量的技术,以使多个节点像单台机器一样工作。这就是Mellanox首先发挥作用的地方,直接体现在我们向上游推进的方式上。这是第一个。
第二个是,你如何将操作分散到多台机器上?实现这一目标的方法是,如果我有一个任务需要一个GPU花费1秒钟来完成,如果我想加速它,我将其分成10000个小块,并将每个小块发送到不同的GPU。现在,在1毫秒内,我就能完成原本需要1秒钟才能完成的工作。但你需要沟通这种部分工作拆分,拆分任务。然后你需要整合结果。而且每次你多次运行它,你就有多个迭代或多个应用程序在我们这里运行。所以有一部分是做沟通,一部分是做计算。
现在,关键在于你想尽可能地将它分割成很多块,因为那是你的加速因子。但是,如果你的沟通实际上阻碍了你,你就会浪费时间,浪费精力,浪费一切。所以你需要做的,是进行非常快速的沟通。所以你将它分割成很多很多块。这样每一块所花费的时间就非常少。但接着还有一部分是沟通,你需要用这段时间来供给它。这就只是纯粹的带宽。
还有一件事是,当你调整你的应用程序时,你要调整你的应用程序,以便通信可以隐藏在计算之后。这意味着如果通信由于某种原因变长,那么每个人都要等待。所以这意味着你在网络中需要做的,不仅仅是原始性能,比如所谓的“英雄数字”,你知道的,我可以达到每秒多少千兆比特。我还需要确保无论谁与谁通信,延迟,即所需的时间,其分布都非常窄。所以如果你看看其他的网络技术或其他网络产品,你会看到英雄数字,你知道的,把比特从一个地方发送到另一个地方。这基本上是物理学。所以它与每个人都非常接近。我们稍微好一点,但这不是主要的优势。但是当你做成千上万次,并且花费相同的时间来做它,而不是其他技术非常广泛的分布时,那么机器就会变得效率较低。所以,你无法将你的作业分配到1000个GPU上,而是只能分配到10个GPU上,因为你需要在通信阶段容纳网络上的抖动。
因此,本质上,网络决定了这个集群的性能。我们将这个数据中心基本上看作是一个单独的计算单元。好的。单独的计算单元意味着你审视它,你开始架构你的组件、你的软件和你的硬件,在你知道这是一个数据中心的时候。这是10万个我们希望它们协同工作的GPU。我们需要制造多个芯片,计算芯片2个,网络芯片5个。所以这是一个规模,只是,就影响而言,以及你需要进行什么投资来创建这个单独的计算单元。所以这就是Mellanox技术发挥作用的地方。
另外一个方面是,存在一个,我们讨论了一个连接GPU以运行任务的网络。但这台机器还有另一面,即面向客户的一面。所以你需要,这台机器需要保存,服务于多个租户。而且这台机器需要运行操作系统,每台电脑都运行操作系统。Mellanox技术的另一部分是我们称之为Bluefield DPU,数据处理单元,它实际上是运行数据中心操作系统的计算平台。
在传统计算机中,我们有一个CPU运行操作系统和应用软件。有很多事情我们可以谈论,优势与劣势。但有两个关键点。一是,你在运行应用程序的通用计算上花费了多少时间?你需要,你想要最大化它。另一件事是,你如何将基础设施计算与应用程序计算隔离?因为,病毒和网络攻击等等。并且能够在不同的计算平台上运行基础设施计算,实际上显著降低了攻击面,尤其是在旁路攻击方面,相比于在同一台计算机上运行的情况。如果你还记得,大约10年前曾有一种病毒,还有熔毁和所有这些CPU上的旁路网络攻击。当你在不同的系统上运行时,这种情况不会发生,或者说攻击面会显著减少。
所以在网络的另一端,我们也拥有技术。这就是使数据中心更有效率的原因。我,好吧,我可能不客观,但我确实认为Mellanox和NVIDIA的合并,实际上是双向互利的。我不认为现在NVIDIA(之前是Mellanox)的网络业务能增长得如此显著。就像现在的发展一样,我认为我们是增长最快的以太网业务,更不用说NVLink和InfiniBand了。但仅仅以太网业务就是有史以来增长最快的业务。
第二章:极限规模的挑战
Sonya Huang: 当你达到10万,甚至最终达到100万个GPU集群时,哪些东西会崩溃?以及你如何使用软件来帮助解决这个问题?
Michael Kagan: 这是一个多阶段的挑战。好的。你需要记住的一件事是,对于所有工程师来说,这并不是很明显,即当你设计机器时,你要考虑如何操作它。好吧,你有这些组件,它们在工作,现在只是要知道,让我们弄清楚。好的。所以问题是硬件组件在99.999%的时间内工作。如果你处理的是一个包含几个组件的单个盒子,通常还可以。但是,如果你正在构建一台包含10万个组件的机器,一台包含10万个GPU的机器,这意味着就组件而言,有数百万个组件,那么一切正常工作的机会为零。所以肯定有什么东西坏了。你需要从硬件和软件的角度来设计它,以尽可能高效地继续运行,保持你的性能,保持你的功率效率,当然,还要保持服务的运行。
所以这是第一个挑战,甚至在你达到数百万个之前。这个挑战实际上从几万个就开始了。这是第一点。
第二点是,当你运行这些工作负载时,非常重要的一点是,有时你会在整个数据中心运行单个作业。然后,你需要编写软件,并且需要为软件提供所有接口,以便更有效地放置作业的不同部分。在这种规模上构建网络与构建网络截然不同,在这种规模上构建计算网络与构建通用数据中心网络截然不同。通用数据中心网络是以太网。这没什么大不了的。这很重要,但情况不同。你正在服务于松散耦合的协作微服务,这些微服务创建了你从外部看到的作为客户的服务。在这里,你在10万台机器上运行一个单一的应用程序。
Sonya Huang: 这是否特定于训练工作负载,或者也适用于推理工作负载?
Michael Kagan: 这是真的。这对所有事情都适用。这取决于,取决于什么规模。而且推理是另一个我们可能会涉及的话题,直到最近,训练才是关键。大量的GPU,并且有一种非常特定的训练方式正在进行。基本上,你以这种方式在多个、多个机器或多组机器上复制另一个模型并运行它们,然后整合结果等等。关于推理,情况稍微不同。
但关键是,你需要在硬件和你的底层软件、系统软件上提供钩子,以便应用程序和调度器能够以最有效的方式在机器上放置作业和放置作业的不同部分,只要你的机器能装进一栋建筑,现在我们讨论的是大约10万个GPU,千兆瓦级,这一切都是电力驱动的。
挑战在于,由于多种原因,你希望将你的工作负载分散到多个数据中心。有时数据中心之间的距离是数千米、数英里。可能跨越整个大陆。而且,这又带来了一个新的挑战,那就是光速。现在你机器不同部分之间的延迟差异变得非常巨大。更具挑战性的是,当谈论网络时,网络拥塞是恶化网络性能的关键问题之一。在如此大的延迟差异下管理拥塞,不像过去电信时代那样,在数据中心边缘放置一个带有巨大缓冲区的盒子,它就能作为拥塞的减震器。巨大的缓冲区不好。越大并不越好。这是一位非常著名的女性的一句名言。
所以我们需要,而且这些缓冲区基本上,这些设备基本上是为了将外部世界与内部世界隔离。而且,但是当你想在相距数千米的数据中心之间运行单个工作负载时,你需要一侧的每台机器都知道它与谁通信,是短通信还是长通信,并相应地调整所有通信模式。因此你不需要这些大缓冲区,因为大缓冲区会导致抖动。所以我们有一项技术,我们实际上最近开发了它,这项技术,所有的互联网网络都是Spectrum X。这是我们基于Spectrum交换机设计和开发的设备,我们把它放在数据中心的边缘。它提供了所有端点调整拥塞所需的信息和遥测数据。
第三章:剖析训练与推理的演变
Sonya Huang: 我们能多谈谈训练与推理的区别吗?比如,当你在做的时候,工作负载的形态有什么不同?我猜,反向传播的计算量要大得多,正向传播则较少,但是工作负载有什么不同呢?然后,您是否看到客户需求开始从预训练转向推理?或者您认为现在仍然是训练密集型?如果我可以问一个快速的后续问题,人们是否会在用于训练的同一数据中心运行推理工作负载?或者最终会是两个独立的数据中心,因为优化方式不同,人们最终会使用两组不同的数据中心?
Michael Kagan: 是的,这是一个很好的问题。让我从第一个开始说起。因此,训练有两个阶段。一个是推理,它只用于前向传播,然后是反向传播来调整权重。对于数据并行训练,还有一个阶段是将权重更新的结果在多个模型副本中进行整合。所以直到最近,这还是计算的主要驱动因素,因为直到不久前,大概是两年前,这在人工智能时代是很长的时间,推理或人工智能主要还是感知性的。所以你展示一张图片,那是狗。你展示一张人的照片,这是迈克尔,那是索尼娅。所以那是单路径,仅此而已。
然后出现了生成式人工智能,实际上你可以获得递归生成。所以当你暂停提示时,它不仅仅是一个推理,而是多个推理。因为对于每个令牌,当你生成文本或生成图片时,对于每个新令牌,你需要再次遍历整个机器。所以,除了单次推理之外,还有更多。然后现在有了推理,这意味着机器开始进行某种思考。如果你问我现在几点了?我可以很容易地告诉你,对吧?现在几点了?如果你问我一个更复杂的问题,那么我需要思考。我可能需要等待或比较多个解决方案或多个路径。每一个这样的事情都是推理。每一个这样的事情都是推理。
而且推理本身实际上有两个阶段。一个是计算密集型的,另一个是内存密集型的。这就是我们所说的预填充。因为当你进行推理时,你会有某种背景,对吧?也就是提示,也就是你需要处理的一些相关数据,并创建上下文来生成答案。而这是非常计算密集型的。它不是非常内存密集型的。另一部分实际上是生成答案,这是推理的解码部分,你在这里逐个生成令牌。有一些技术可以生成多个令牌,但它仍然是,单条路径远小于最终答案。
所以,如果你把所有这些东西结合起来,对计算的推理需求实际上不低于训练。实际上甚至更多。这有两个原因。一是我解释过的,用于推理的计算量比过去大得多。另一件事是,你训练模型一次,但会进行多次推理。ChatGPT,你知道的,数十亿人,或者几乎是数十亿人,对吧?有客户一直在不停地使用同一个模型。他们训练了一次。
Sonya Huang: 现在他们在制作视频。所以工作量很大。对,对。
Michael Kagan: 现在他们在制作视频,你可以生成,每个人都在进行推理。我觉得我妻子和ChatGPT说话比和我说话还多。她一旦发现了这个,它就成了她最好的朋友。
所以就这一点而言,现在回到你关于机器的问题,你可以在电话上进行推断。所以肯定会有小规模的推断装置。是的,就像移动设备一样。如果你看看数据中心规模,数据中心规模以及编程效率,可编程性比硬件优化更可行。而且,每个硬件实例都有其自身的成本和缺点。所以只要你不去区分,而且我认为,除了这个,我们实际上做到了,它和GPU非常相似,对于预填充与解码,它与GPU使用相同的编程模型。我想,我不记得是什么时候发生的了,但实际上我们宣布我们正在构建一个针对预填充优化的GPU SKU。所以你会有,它可以进行解码,解码GPU也可以进行预填充。但是你可以用SKU或者预填充与SKU来装备你的数据中心,这些SKU是为了解码而设计的,以便针对典型用途进行优化。但是如果你的工作负载转移到更多的解码或更多的预填充,你可以使用其中任何一个来补偿。这就是可编程性的重要性。与GPU相同的接口,它基于CUDA及更高版本,这是在Mellanox之前使英伟达成为英伟达的原因。我可以问你一个关于数据中心扩展的问题吗?
第四章:增长的物理边界
Sonya Huang: 几十年来,我们遵循摩尔定律,芯片变得越来越密集,并产生越来越好的性能。然后我们遇到了物理定律,芯片无法变得更密集,因为它们的量子力学性质导致它们崩溃。所以我们不得不扩展到机架级别。现在我们必须扩展到数据中心级别。是否存在类似的数据中心扩展定律,表明当数据中心变得太大时,通信开销会导致性能下降,或者换一种说法,或者更简单地说,数据中心的大小是否存在自然限制?
Michael Kagan: 我认为在给定的数据中心规模内,你可以消耗多少能量存在一个实际的限制。
Sonya Huang: 如果你被核电站包围,并且能源可用,那么数据中心本身会发挥作用吗?
Michael Kagan: 我不知道。我甚至不是建造方面的专家。但如果你被包围,就会有能源输入。现在热量正在散发出去。所以还是有希望的。而且我们现在基本上已经完全转向了液冷。我们这样做的原因之一是为了实现更密集的计算能力。用风冷我们无法构建像现在这样密集的计算能力。所以有很多技术正在出现,以帮助这种越来越密集的计算。现在最后一个大型数据中心,就像XAI规模一样,是100或150兆瓦。现在我们谈论的是吉瓦级数据中心。人们正在谈论10吉瓦级数据中心。所以,人们期待建造更大更大的数据中心。
Sonya Huang: 你是否将数据中心出售给其他领域?
Michael Kagan: 免费冷却,免费电力。我认为决定数据中心部署速度的因素之一是混凝土稳定下来的速度。
第五章:文化融合与生态共赢
Sonya Huang: 在创办Mellanox之前,你在英特尔工作。16年?
Michael Kagan: 16年。
Sonya Huang: 你成为了首席架构师。NVIDIA和英特尔最近宣布了一项合作。你能分享一下对此的愿景吗?
Michael Kagan: 起点是,计算在过去十年或十几年里发生了变化。NVIDIA最初是一家加速计算公司。电子游戏是第一个应用领域。然后它进化到人工智能,这是一种新的数据处理方式。你不能只使用一台通用的人工机器,它无法作为一个平台来解决问题。编程一台人工机器只是向某人解释该做什么。我可以解释很多事情,我可以向很多人解释该做什么,但我无法解释如何区分猫和狗。所以人工智能解决了一些新的挑战,而你需要在那方面进行加速。
事实上,我们与英特尔的合作是将加速计算与通用计算融合在一起,因为通用计算不会消失。一切都将加速,但我们加速通用计算。我们加速应用程序。X86是占据主导地位的架构,它将极大地服务于两家公司。
这实际上是英伟达最有趣的事情之一。这是一种双赢的文化。我们不是为了从现有的蛋糕中拿走更大的一块。我们是为了给每个人烘烤一个更大的蛋糕。我们的成功就是我们客户的成功。我们的成功不是我们竞争对手的失败。我们的成功是我们客户的成功以及我们生态系统的成功。而且我认为将传统计算、人机结合以及英伟达提供的加速计算融合在一起,实际上,这可能开启了另一个维度,我不确定它是什么,但它基本上赋予,从实际的,短期角度来看,它赋予了英伟达和英特尔进入市场的渠道,或扩大市场,并服务于那些原本更具挑战性的市场。
Sonya Huang: 你提到了英伟达的文化。因此,当Mellanox在2019年成为英伟达的一部分时,合并后公司的市值约为1000亿美元,这可不是开玩笑的。但今天的市值约为4.5万亿美元。因此,6年内价值增长45倍是非常惊人的。这如何改变了英伟达的文化?如今,英伟达已经成为世界上最受尊敬的公司之一,如果不是最受尊敬的,与六年前相比,英伟达有什么不同?
Michael Kagan: 关于这个,当我们刚加入时,黄仁勋在以色列,我向他展示,我相信一加一会等于10。实际上我低估了四倍。但从某种意义上说,Mellanox和英伟达是相似的。一开始,这种文化非常相似,但没有什么是绝对相同的。我是 Real 在收购后几个月辞职后,唯一留在 Mellanox 的创始人。我最初的主要关注点,就是你在洗澡时会思考的问题,是如何确保这次收购能够成功。英伟达为我创立的公司支付了 70 亿美元。而且,当时有很多复杂的情绪。但一旦完成,就完成了。现在我必须让它成功。
所以最终它成功了。大部分以色列员工都留了下来。我认为 85% 或 90% 的地区员工都留了下来。实际上,英伟达在以色列的人力方面增长了 2 倍以上。所以我们正在成长,并且宣布我们实际上将在以色列建立一个园区,一个英伟达的新园区。所以我认为总体的合并非常成功。我尽了最大努力确保它成功。除了我关注的技术,这部分可以算是技术,但它是技术与神学的结合,还有很多其他事情要确保人们感到舒适,要知道,从身处梅拉诺克斯的中心,也就是以色列的总部,不会感到被遗弃,你知道的,在遥远的地方。黄仁勋基本上强调了网络连接是英伟达成功的关键部分。他是对的。所以我认为这被认为是技术史上最成功的合并。你们可能比我更了解这些事情。但总的来说,我认为这是一个伟大的举措。
第六章:AI的科幻未来与新增长定律
Sonya Huang: 你花时间思考的科幻事情有哪些?只是想知道,比如,光互连,你认为它会存在吗?你认为人工智能在物理学方面会比我们更优秀吗?在数据科学方面比我们更优秀吗?
Michael Kagan: 我在想的是,如果你看看科幻小说,就是如何使历史成为实验科学。你不能在物理学中尝试某些东西,然后,看看它是否有效,然后在历史中尝试其他东西。时间朝着一个方向前进,但你对世界有一个很好的模拟。你可以做历史实验。我们有一个地球-2气候模拟器。借助这种技术,我们实际上可以模拟我们今天的所作所为将如何在50年后影响全球变暖。所以是实验科学。你尝试一些东西,你看看50年后会发生什么。所以那是科幻的部分。
而且,物理学,现在我们正从推理等方面入手。现在,一旦我们让AI模型理解物理学,我们实际上可以学习物理学。AI可以教我们物理学,因为我们得出我们观察到的物理定律的方式,理论物理学,对吧?你观察一些现象,你概括它,你编写出基本上是定律的规则,即存在于该现象之下的物理定律。而AI在概括、数据处理和观察方面非常出色。因此,AI可以帮助我们了解一些我们现在甚至无法想象的物理定律。
Sonya Huang: 摩尔定律是每两年翻一番。黄氏+卡根定律的斜率是多少?你认为你能维持多久?
Michael Kagan: 这个斜率大约在每年10倍或几个数量级的范围内。顺便说一句,这正是我们现在正在做的。从大约两三年前开始,我们将产品推出的速度从每隔一年加速到每年。现在我们每年都推出新一波的产品,而且这是一个数量级的提升。而且这并不是在廉价性能的层面上。而是在你可以用这种性能构建的机器上。这正是我们所关注的。这是一个单一的计算单元。
它会持续多久?我不知道。我不知道。但我们会尽最大努力维持它,只要需要,甚至可能会加速。一切都与指数有关。一切都与指数有关。这很难想象。如果你看看这个Moolow课程或任何其他课程,他们通常会在对数尺度上绘制它。所以它看起来像是线性的。但那是错误的观察方式。你无法预测将会发生什么。
谁能预测到iPhone首次推出或智能手机首次推出时会发生什么呢?那是15年前的事了。2007年是iPhone问世之年。是的,2007年。哦,17年前。谁能想象到这款智能手机,对我来说,最少用的功能竟然是打电话?除非是电子商务、发短信、看新闻、收邮件。基本上,你的人生都由这台机器掌控了。所以你的身份验证,你的身份证都在那里。所以,现在谁又能想象,从今天我们所做的这些发展来看,10年后会发生什么?但我们正在为创新构建平台。
Sonya Huang: 你对“谁能想象”有什么评论?对于我们与人工智能的未来,你最乐观看待的是什么?比如,人工智能在未来5年、10年、15年能为世界做些什么?
Michael Kagan: 史蒂夫·乔布斯称计算机是思想的自行车。所以人工智能,它可能,我不知道它是否,它可能是一艘宇宙飞船。因为有很多我想做的事情,但我只是没有足够的时间,没有足够的资源去做。有了人工智能,我就会拥有它。这并不意味着,我会做两倍的事情。也许我会做,我会做10倍的事情。但关键是,我想做的事情将是今天我想做的100倍。
这就是,你去问任何项目负责人,没有人会说,我已经足够了。我有足够的人力。我有足够的资源。我不再需要更多了。如果你给他资源,效率提高两倍,他会做四倍的工作。而且他会想要做10倍的工作。所以这就像电力改变了世界,对吧?而不是使用,在伦敦,你仍然看到这些煤气灯和这种基础设施,使用天然气作为能源。谁能想到,一旦电力被发明出来,它将改变世界,以至于,我们离不开电力。人工智能也是如此。说得真好。
Sonya Huang: 非常感谢您今天加入我们。我喜欢这次谈话。
Michael Kagan: 感谢邀请我。谢谢。
