深度|Meta 首席科学家 LeCun:Meta 正研究新一代 Agentic 系统,能够理解物理世界并规划行动实现目标

Meta 首席科学家 Yann LeCun 在本文中详细介绍了 Meta 正在研究的新一代 Agentic 系统,该系统旨在通过观察和行动来理解物理世界,并规划行动以实现目标。LeCun 强调了当前大语言模型(如 GPT)的性能已接近天花板,未来的 AI 系统将需要新的架构和方法,超越简单的文本预测。他还讨论了开源 AI 平台的重要性,认为开源能够促进技术进步和全球协作,同时反对过度监管 AI 研发,认为这会扼杀创新并导致少数公司垄断。此外,LeCun 强调了 AI 系统的安全性设计,认为未来的 AI 系统需要通过感官输入(如视觉和听觉)来学习,才能达到人类水平。最后,他分享了 LLaMA3 在教育和医疗领域的应用实例,强调了分布式系统和全球合作对于实现人类智能级别的 AI 的重要性。



深度|Meta 首席科学家 LeCun:Meta 正研究新一代 Agentic 系统,能够理解物理世界并规划行动实现目标

图片来源:Johns Hopkins University

Z Highlights

  • 在未来某个时刻,我们会拥有比我们更聪明的 AI 系统。这肯定会发生。是五年,十年,还是二十年真的很难说。我个人认为最早可能会是五到六年,但更可能是十年,甚至更长,因为这可能比我们想象的要难。在过去几十年的 AI 发展史中,人们一直低估了事情的难度。

  • 我们未来确实会将拥有像人类和动物一样学习的系统,能够像人类和动物一样高效地学习新技能和新任务,我们目前无法通过机器复现这一点。

  • 我们正在研究的基本上是一种全新的架构,旨在理解物理世界,具体的方法是通过学着像婴儿和小动物一样观察世界并在行动中理解世界。这些系统最终将能够规划一系列行动,实现特定目标,这就是我们所说的Agentic系统。

  • 我们正在接近系统性能的天花板,因为我们基本上已经用尽了自然数据,比如说互联网公开可用的所有文本数据,都已经被用来训练这些LLM,现在也无法再获得更多了,所以人们在成合成数据和类似的东西去进行训练。但我们不可能把它提升十倍或一百倍了,它已经接近饱和点了。

入职Meta AI实验室:科研与责任并重

Kara Swisher我们今天主要讨论AI,但我先做个欢迎词,然后我们再聊点其他的。LeCun,感谢你到约翰·霍普金斯大学布隆伯格中心参加这个特别的直播对话。因为你在神经网络方面的基础性工作,你是AI领域的奠基人之一,而正是神经网络为今天最强大的AI系统奠定了基础。对于那些不太了解AI的人来说,AI其实已经存在很长时间了,现在正处于一个重要时刻。目前你是Meta的首席科学家,负责监管世界上一些资金最雄厚的AI研究项目,我们稍后会讨论这些,现在我们也面临着新的政府管理团队上任。

你是我见过的最有趣的科技专家之一,你的社交媒体内容太有意思了,你也非常直言不讳,作为一位科学家,甚至我觉得作为美国公民而言,你所讨论的内容都很有意思。我真想读一读你的一些分享,然后请你谈谈为什么写下这些内容。我不常看到像你这样的科技人物,除了马斯克之外,你真的很特别。

比如你写的这条:2024103日,特朗普是民主的威胁,埃隆是他最响亮的支持者。你不会让我停止为民主的敌人而战斗。”927日,你写道,埃隆不仅买下了推特,他买下了一个宣传机器,来影响你的思维。关于埃隆我喜欢他的汽车,喜欢他的火箭,卫星网络,我不同意他对AI存在风险的看法,我不喜欢他不断炒作,真心讨厌他那种复仇心态、阴谋论、偏执的极右翼政治立场。

我比你对埃隆更温和,你也常常谈论这些议题,也公开表达了对特朗普的不支持。我不会一一读完,但你写的内容很犀利,比我写的任何东西都要尖锐,所以我想聊聊这个。你和埃隆公开争论过,曾称特朗普是个病态的撒谎者。谈谈你和即将上任的政府的关系,以及你是不是准备开始变柔和些,还是你根本不在乎?

Yann LeCun我对很多问题感兴趣,我算是个典型的自由派,在欧洲的政治光谱上,我属于中间派,但在美国显然不是。让我愤怒的是埃隆开始攻击高等教育、科学和相关机构,比如Anthony Fauci这些人。我是个科学家,我既是教授,又是Meta的高管,我能够独立的发声,我非常感激在Meta能够保持独立的声音。我在这里不是在做企业的发言人,这也说明了Meta公司的管理方式是怎样的,而且我在Meta创办的研究实验室会发布我们所做的一切,分发我们的代码作为开源,我们对所有事情都非常开放,包括我们的观点。所以,这就是我要讲的。但作为一名科学家,我非常理性,我真的很不满埃隆攻击科学界的建设者们。

Kara Swisher所以现在他正处于核心,你打算如何应对未来的局面?

Yann LeCun我见过埃隆很多次,他是个可以理性对待的人。但我们必须和人合作,无论在政治或哲学意见上有多少分歧,最终都得和人合作,这正是未来会发生的事情。我在Meta不做政策工作,我做的是基础研究,但我不做内容政策。我和世界各地的很多政府都有沟通过,但大多数是关于AI技术及其如何影响他们的政策,并没有对Meta和政治系统之间的关系产生影响。

Kara Swisher我很好奇为什么你会选择去像Meta这样的地方,而不是像以前那样去一个研究型大学或者其他地方。你怎么看待你自己的权力呢?你的影响力是什么?你好像在说我只是个简单的科学家,做一些事。

Yann LeCun我也是一名学者,我还是纽约大学的教授,并且我保留了这个职位。当马克·扎克伯格在11年前几乎就在今天联系我时,他希望我为Meta创建一个AI研究实验室,因为他有一个远见,认为这将产生巨大的影响和重要性,他是对的。我告诉他我只有三个条件:第一,我不搬到纽约以外的地方;第二,我不辞去纽约大学的工作;第三,所有我们要做的研究,我们都要公开进行,我们会发布我们做的所有研究,并且开源我们的代码。他的回答是:好的,好的,好的。你不必担心这一点。这已经是公司DNA的一部分了,我们已经开源了我们所有平台的代码。这是任何其他地方都没有给过我的答复,他们可能有资源建立一个研究实验室。我在那里得到了机会,基本上是从零开始创建一个产业中的研究组织,并且按我认为合适的方式塑造它。我在这方面有一些经验,因为我在Bell Labs开始了我的职业生涯,所以我对如何在产业界做真正有雄心的研究有一些了解。所以我认为这是最令人兴奋的挑战。

Kara Swisher特朗普最近称David Sacks“AI和加密货币沙皇AI and Crypto Czar),显然政府将在这方面发挥更大作用。对于那些不了解人来说,Sacks是一位投资者,也是PayPal“黑帮PayPal Mafia)的成员之一,还是马斯克的朋友,他的政治立场发生了相当大的变化。作为一个从事这些研究的人,你觉得华盛顿现在需要这样的人物吗?还是你根本不在乎?对你来说这无关紧要吗?政府做这样的事情重要吗?

Yann LeCun绝对重要,有几个原因。首先是不要制定相关使开源AI平台违法的法规,我认为这对未来非常重要,不仅是对技术进步的推动,对人们如何使用这些技术也至关重要,比如使得技术广泛传播等等。但监管基于AI的产品没有问题,这完全可以接受,我并不是反对监管之类的。第二点是,学术界在AI进展方面落后,且因为缺乏计算资源,很难为AI的进步做出贡献。因此,我认为政府应该分配资源,向学术界提供计算资源。

Kara Swisher正如你所说,这一局面现在发生了相当大的变化。因为许多早期的计算研究都在学术界完成,而现在这种研究已不再局限于此。像成为“AI沙皇这样的工作,你会做吗?

Yann LeCun不,因为我喜欢科学。在我的职业生涯中,我有很多机会成为一名管理者,我在Meta做了四年的经理,然后我成为了首席AI科学家,我现在是公司里最幸福的人,每个人都羡慕我,因为我是高级副总裁,但我没有任何下属也没有组织要管理。

Kara Swisher这样的职务,可能只是一个看似无关紧要的职位,对吗?你认为一个有效的沙皇应该做什么?保持它不违法?

Yann LeCun过去两年,关于AI是否在变得越来越强大后会在本质上变得更危险,一直是一个很大的争论。不是说产品本身危险,而是指技术本身,因此,是否应该有一些规定能够限制AI系统的强大程度?我一直反对这种对研发进行监管的想法,我认为这会适得其反,因为这种观点是基于一些关于AI潜在危险的错误观点,例如有些人认为,AI最终会接管世界之类的事,其实我们离这个还很远/所以我认为目前这种做法毫无意义,任何试图监管研发的举措都是非常适得其反的,而现有的一些提案会导致少数几家公司在这一领域被监管俘获。

Kara Swisher那么你会建议政府放开这些限制,并增加对AI领域的资金投入吗?Andrew Ferguson被提名为联邦贸易委员会(FTC)主席,前福克斯新闻主播Pete Hegseth被提名为国防部长。Ferguson似乎想推翻任何试图监管的尝试,Hegseth则会谈到在国防部(DoD)内新设的AI办公室,政府在这一领域变得更加积极是否重要?

Yann LeCun政府在这个领域变得更加了解和学习是非常重要的。因为目前使AI能够运作的所有芯片都是在台湾制造的,由NVIDIA公司设计,所以可能需要做些什么,或许是让芯片行业的竞争更具活力。还有另一个问题我认为也非常关键,并且不仅仅对美国政府,而是对全球各个国家的政府都有影响,那就是AI很快将成为一种通用的知识平台,基本上就是人类知识的宝库,但这只会在自由和开源的平台上,并且这些平台是在来自全球的数据上训练的情况下才能实现。你不能只靠美国西海岸的一家公司来做到这一点,你不能让一个系统会讲印度的所有700种语言,或者印度尼西亚的300种语言,或者无论其他国家有多少。所以最终,这些平台必须以分布式的方式进行训练,全球有很多贡献者参与其中,它需要是开放的。

Kara Swisher我知道你担心过早的监管会扼杀创新,但你曾签署了一封公开信,反对总统拜登的AI行政命令。能否更谈一下你为何这样做?你认为政府应该扮演什么样的角色?

Yann LeCun我认为行政命令中有很多完全合理的内容,类似于欧盟的AI法案,比如隐私保护等方面是完全有意义的。真正让我不同意的地方既在欧盟AI法案的最初版本中,也在行政命令中,是在于设定了一个限制:基于认为一旦达到某种复杂程度AI本身就会变得具有风险的假设这一想法,如果你训练的模型有超过1024次方到25次方的浮点运算量,你必须从政府获得许可证或某种授权。我完全不同意这种做法AI安全方面确实有许多重要问题需要讨论,但限制竞争是完全没有意义的。

Kara Swisher2016年,特朗普说他会打击H1B签证,但H1B签证为美国带来了大量的科技人才,他的立场未来也不明确。你曾发表过关于此的看法,说你和其他科技巨头如果没有这些签证,可能根本不会在这里。这是否会影响美国在AI竞赛中的全球定位?你希望他的思维方式有所转变吗?

Yann LeCun很多人都说,美国通过让有才华的人难以获得能够让他们留在这里的签证实际上是在自伤。我来自法国,我也是美国公民。这很像是一个障碍赛。美国的科学和技术从吸引来自全球的人才中受益匪浅。所以,我认为迄今为止的移民政策对这一点的做法是适得其反的。

Kara Swisher你希望看到什么?

Yann LeCun有一些提议,例如,如果你拥有美国大学的研究生学位可以让你更容易留在这里,至少待一段时间,找到一份工作,直到你能够使自己的情况更稳定。我认为这应该适用于那些拥有任何地方的高级学位或有相关证明的人,但获得绿卡的过程非常复杂,耗时长,且有不确定性,这会让很多人感到气馁,这是一个问题。

AI未来发展的分歧:开源与封闭的博弈

Kara Swisher大家需要认识到的是谢尔盖·布林是移民,桑达尔·皮查伊、埃隆·马斯克、彼得·蒂尔·大卫等等等等,还有你都是移民。这是整个科技行业的现象。最近许多大型科技公司推出了更新版的LLM或新的AI代理或AI功能。我想了解一下你们现在在Meta的工作。你们发布了LLaMA 3.3,最新的更新,驱动Meta的技术,我想谈谈它的功能,然后会请你将其与其他模型进行比较。与其他模型相比,它的表现如何?你怎么看待这个问题?

Yann LeCunLLaMA 和大多数其他模型的主要区别在于,它是免费的和开放源代码的。开源软件是指提供源代码的软件,所以你可以修改它,自己编译它,你可以免费使用它。在大多数许可证的要求下,如果你对它做了一些改进并且希望用在产品中,你也必须以源代码的形式发布你的改进,这让平台型软件能够快速进步。

多年来它作为一种分发平台软件的方式取得了惊人的成功,整个互联网都运行在开源软件上。世界上大多数计算机都在Linux上运行,除了少数台式电脑和iPhone。在你的车里,在你的Wi-Fi路由器里,在手机信号塔里,如果你的手机不是iPhone,那就是Linux,所以一切都在运行Linux。你的车里可能有10台计算机在运行Linux,这真的非常成功。原因是它是一个平台,人们需要能够修改它,使其更安全、更可靠,使其能够在各种硬件上运行。而且这不是设计使然,而是市场力量自然推动行业选择开源平台、开源代码,尤其是在作为平台的情况下。

至于AI,是否开源的问题就更复杂了。因为当你建立一个AI系统时,首先你需要收集训练数据。其次,你需要在这些训练数据上训练一个所谓的基础模型。训练代码和数据通常是不分发的,例如,Meta并没有分发LLaMA模型的训练数据或训练代码,或者大部分代码。然而,LLaMA模型,可以分发训练好的基础模型,它附带了开源代码,允许你运行系统,并根据需要进行微调,而且你不需要付费给Meta,不需要向Meta提问。但也有一些限制,主要是由于法律环境的原因。

Kara Swisher所以为什么这样更好?你可以辩称其他所有平台都不是。

Yann LeCun它们开发自己的封闭系统,各自发展自己的东西,确实还有一些其他开源平台,但主要的平台都是封闭的,OpenAIAnthropicGoogle的平台是封闭的。

Kara Swisher为什么它们选择这样做,从你的角度来看?

Yann LeCun很可能是为了获得商业优势。如果公司想从平台型的产品直接获取收入,并且认为自己在技术上处于领先地位,而且主要收入来源将会是这些服务,那么也有理由保持封闭。Meta的情况并非如此,对于Meta而言,AI工具是整个体系的一部分,而收入来源是广告,所以它们不是主要的收入来源。

另一方面,我们认为平台的发展会更快。实际上,我们已经看到了更多创新,因为它更具创新性,像是许多创新,如果没有LLaMA系统,或者没有人们能直接接触和实验它的机会,我们可能不会想到,或者我们当时没有足够的资源去做。

Kara Swisher有一个批评是你们落后了,而这就是你们迎头赶上的方式。你怎么回应这个批评?

Yann LeCun这背后有一段有趣的历史。首先必须意识到的一点是,除了Google,行业中的每个公司在构建AI系统时,都是使用一个名为PyTorch的开源软件平台,而这个平台最初是由Meta开发的。MetaPyTorch的所有权转交给了Linux基金会,现在它已经不再归Meta所有了。但是,OpenAIAnthropic,所有人都在使用PyTorch

所以没有Meta,就没有今天的ChatGPTCloud以及所有相关技术。或者说,不会达到今天这种程度。像ChatGPT所使用的基础技术是在多个地方发明的,OpenAI在它们还不保密的时候做出了一些贡献,Google当然也做了一些贡献。

Kara Swisher你说得很好,它们不保密的时候

Yann LeCun对,它们当时并不保密,因为后来变得保密了,在过去三年左右,Google也在一定程度上有所进步,虽然不是完全,但他们确实有进步,它们试图在保密中推动技术发展。我认为Meta可能有一个相当大的研究组织,我们还有一个应用研究和先进开发的组织,叫做GenAI。我们的研究组织叫做FAIR,曾经做Facebook AI研究,现在是基础AI研究,FAIR500人,我们正在从事的工作实际上是下一代AI系统的研究,超越大语言模型,超越聊天机器人。

Kara Swisher新的模型被称为LCM,大概是“Large Concept Model”对吧?没解释一下它是什么,它和LLM有什么不同。大语言模型是我们现在讨论的内容。你也提到过自回归LLM在性能上已经达到天花板,能稍微谈一下这个问题吗?因为我认为OpenAIIlya Sutskiver谈过这个,他现在离开OpenAI自己创业去了。

Yann LeCun是的,叫做Safe super intelligence,好像是这个名字,这个概念很有意思。过去有些人认为,你只要拿像GPTMeta的模型、Gemini之类的LLM,继续扩展它们,使用更多数据和计算资源进行训练,某种程度上就能让人类水平的智能就会从中产生,而我从来不相信这个概念。Ilya以前非常相信这个概念,但现在显然不再相信了,现在我们已经到头了,数据也用完了,很明显的是我们正在接近这些系统性能的天花板,因为我们基本上已经用尽了自然数据,比如说互联网公开可用的所有文本数据,都已经被用来训练这些LLM,我们现在也无法再获得更多了,所以人们在成合成数据和类似的东西去进行训练。但你知道,我们不可能把它提升十倍或一百倍了,它已经遇到饱和点了。

我们正在研究的实际上是下一代AI系统,它不仅仅是预测下一个词。LLM之所以叫大语言模型,是因为它基本上是训练来预测文本中的下一个词。它通常会收集大约20万亿个词,差不多是这个数量,都是互联网上所有公开可用的文本,经过一些筛选,然后训练一个庞大的、里面有数十亿甚至数百亿个可调参数的神经网络,用来预测下一个词。给定一个几千个词的序列,你能预测出接下来会出现的下一个词吗?永远无法做到完全准确,但这些系统所做的就是基本上预测一个词的概率分布,你可以用它来生成文本。这就是自回归部分,你给系统输入一个词序列,它预测下一个词,然后你把它作为输入放回去。所以现在它看到的是自己生成的内容,然后你可以让它预测下一个词。这就是它们的工作原理。现在无法保证生成的任何词序列是有意义的,也不能保证它不会产生混淆或胡编乱造,所以很多行业的工作,实际上是努力探索如何微调这些系统,通过人工干预来训练它们执行特定任务,并且避免生成无意义的内容;还需要让系统能够在它们不知道答案的时候,去询问数据库或搜索引擎,所以你必须有能检测出它们是否知道答案的系统,可能也会生成多个答案,再挑选出好的答案。但最终,这并不是未来AI系统的工作方式。

未来AI的应用与愿景:人类更强大的助手

Kara Swisher我和很多人聊过,他们使用这个“Agentic”概念,我觉得Satya Nadella是第一个从你那里得知Meta发布了Meta Motivo。根据我的理解,它是用来制作看起来更逼真的数字化身,我感觉像是Meta想要再次推动元宇宙的实现,请说说它是什么。我不太理解,因为你们在这些事情上投资了大量资金,为了做出一些人们愿意购买的东西,对吧?不仅仅是为了做更好的广告。你们的目标肯定不止这些。

Yann LeCun我来告诉你一个秘密,我现在戴着智能眼镜,我自己也有一副,挺酷的吧,它有摄像头,我可以给你们拍张照片,这是我们取得的进展。

Kara Swisher我曾拥有一副最早的Google Glass,但与此相比,它的标准其实很低,不过请继续。

Yann LeCun最终,我们将会穿戴智能眼镜,可能还有其他智能设备,它们内部将会有AI系统。这个眼镜就有一个。我可以通过它与MetaAI对话,这些设备将帮助我们日常生活中的各种任务,我们需要这些系统具备基本的人类智能,甚至在很多方面具备超人类的智能。问题是,我们怎么才能达到那一步?现在距离这个目标还很远。比如,一些人让我们相信我们已经非常接近所谓的AGI,实际上我们离它非常远,也许不会是几十年,但至少要好几年。而你可以通过任务类型来判断这一点。我们有能够通过律师考试、通过大学考试的LLM,但是我们的家用机器人在哪?它能打扫卫生、收拾餐桌、用洗碗机吗?我们现在还没有。这并不是因为我们无法制造机器人,我们只是没法让它们足够聪明,没法让它们理解物理世界。

事实证明,物理世界对AI系统的理解要比语言难得多。语言很简单,对于人类来说,这可能是反直觉的。我们认为语言是智能的顶点,但实际上它很简单,因为语言只是一系列离散符号,我们能处理,但无法让AI理解真实的世界。所以我们正在研究的基本上是一种全新的架构,旨在理解物理世界,具体的方法是通过学着像婴儿和小动物一样观察世界并在行动中理解世界。这些系统最终将能够规划一系列行动,实现特定目标,这就是我们所说的Agentic系统。Agentic系统是一种能够规划一系列行动以达到某个特定的结果的系统。

现在,大家所谈论的Agentic系统实际上并不进行这种规划,他们做不到,这其实有些在作弊,它们只是学习了一些计划模板。

Kara Swisher你们也在开发MetaAI搜索引擎中,我猜您想要最顶尖的搜索引擎,这是真的吗,这很重要吗?

Yann LeCun显然,智能助手的一个组成部分就是搜索。你想要搜索事实,并且链接到这些事实的来源,这样你在对话的对方就能信任结果。所以,搜索引擎是整体AI系统的一个组成部分。而且,这个系统显然要绕开Google系统。目标不一定是直接与Google竞争,而是为那些想要AI系统的用户提供服务。

Kara Swisher你认为它会有什么用途呢?因为大多数人认为MetaAI竞赛中落后,尤其是在ChatGPT的所有炒作之后。但马克·扎克伯格刚刚说它已经有近6亿月活跃用户,并且有望在今年年底成为全球使用最广泛的AIMetaAI和人们在ChatGPT上做的事情非常不同,ChatGPT是一个独立的带有搜索功能的搜索程序。那么,除了让广告更加高效之外,它对你来说有什么用途呢?我知道马克谈过了这个问题,但是从你和Meta的角度来看,它对Meta意味着什么?

Yann LeCun这是一种未来愿景,未来每个人都将时刻拥有一个AI助手,它将完全改变现有的计算平台。我们以前称之为元宇宙。但这些眼镜最终会有显示屏,增强现实显示屏。实际上,最近展示的Orion项目已经有了这种演示。目前我们还无法将其制造得足够便宜,因此还不能出售,但最终它们会实现。所以这是一个长远的愿景, 它将是我们的助手,每个人将与一个虚拟助手一起工作,基本上就像是一个人类助手,或者最终像一支非常聪明的团队,也许比你更聪明的人能为你工作。

Kara Swisher但目前,人类助手要便宜得多。Meta现在预测的支出在380亿美元到400亿美元之间,谷歌说它的支出将超过今年的510亿美元,分析师预测,微软的支出将接近900亿美元。支出都很多。Mark Benioff最近告诉我,这是一次逐底竞赛。你担心会超支吗?为了让我得到一个更聪明的助手似乎不是一个好的商业模式,但我不知道,当初在Facebook邀请我加入时我没有接受。

Yann LeCun这是一个长期投资。你需要基础设施,才能以合理的速度运行这些AI助手,服务越来越多的人。正如你所说,有6亿人正在使用Meta AI,还有一个有趣的数字。Meta AI是基于开源引擎LLaMA构建的,而LLaMA已经被下载了6.5亿次。这是一个惊人的数字。当然,我不知道这些人都是谁,但这是一个令人震惊的数字。已经有 85,000 个从 LLaMA 派生出来的项目,它们是开源的。大多数这些项目来自世界各地,很多项目基本上是在训练 LLaMA,比如让它学习塞内加尔、印度或越南的多种语言。

Kara Swisher所以你不认为这些钱花得不值得吗?

Yann LeCun我不这么认为,因为在一两年内,会有一个非常庞大的群体每天都在使用 AI 系统,并且这个群体会不断扩大;并且这些系统越强大它们就越有用,而越强大它们的计算成本就越高。所以这笔投资是基础设施投资。

AI监管争议:推动创新还是阻碍进步?

Kara Swisher你说过少数几家公司掌握专有的 AI 模型是一个巨大的危险,但也有人批评开源模型。他们担心有些人可能会利用它们传播虚假信息、发动网络战或生物恐怖主义。谈谈这种区别。鉴于你们是以开源方式发布这些强大的工具,Meta 在防止这种事情发生方面有发挥什么作用吗?

Yann LeCun这是一个巨大的辩论,就在不久前,2023 年初,当我们开始发布 LLaMA 时,第一个版本并不是开源的。你必须申请许可,并且需要证明自己是研究人员。这是因为当时的法律环境不确定,我们不知道人们会怎么使用它,所以它不是开源的。但随后,Meta内部收到了很多来自行业内的请求,要求我们必须开源下一个版本,因为这将创造一个整个行业,也能够支持很多初创公司、新产品和新事物。于是我们进行了几个月的内部大讨论,每周讨论两小时,40 人参与,从 Mark Zuckerberg 到其他人都参与其中。讨论非常严肃,涉及安全问题、法律环境、各种各样的问题。然后,某个时刻,Mark 做出了决定,说,好吧,我们将开源 LLaMA 2。告诉我怎么做。” 这个决定是在 2023 年夏天做出的。从那时起,它基本上完全启动了一个整个行业。

Kara Swisher但为什么它比这些由公司控制的专有模型更安全呢?

Yann LeCun因为有更多的人在关注它。因此,有更多的人在为各种用途对其进行微调。所以有一个问题是,也许很多人会接触到它,然后用它来做一些不正当的事情。实际上,中国的研究人员用 Meta旧版本的 LLaMA 模型为军事用途开发了一个 AI 模型,这实际上是一种有轻微负面影响的例子,而且它本来可以使用许多优秀的开源中国模型中的任何一个,其中有一个叫做 Gwen 的模型非常好,堪比最优秀的模型。中国有很好的研究人员和工程师,他们开源了很多自己的模型。

Kara Swisher你不认为这是 Meta的责任。你们只是发布了工具,然后人们怎么使用它是他们的事。

Yann LeCun某种程度上,当然是。所以,LLaMA 团队和 Gen-AI 组织做了大量的努力,对我们发布的所有系统进行红队测试,确保它们在发布时基本是安全的。其实这是一个非常重要的工作,我们甚至最初把 LLaMA 交给了 DEF CON 的一些黑客,要求他们尝试入侵系统之类的,也必须这么做。结果是,直到现在,我们没有发现任何用我们发布的模型做的非常坏的事情。公众并没有意识到的一点是他们认为负面的都是从 GPT 出现后才开始的,但在那之前,已经有很多年的开源 LLM 存在了。我不知道你是否记得,当 OpenAI 发布 GPT-2 时,他们说,我们不打算开源它,因为它非常危险。人们可能会做出非常坏的事情,他们可能会用它来向互联网散布虚假信息。等等,所以 OpenAI不打算开源。我曾经嘲笑他们,系统的能力实际上并不差,你必须接受这样一个事实,那些技术已经存在了好几年,至今并没有发生什么特别糟糕的事情。

曾有一些担忧,人们可能会在美国选举前利用这个技术传播虚假信息。我是说,今年世界上有三场重要的选举,还有各种各样的事情,比如网络攻击什么的,但这些事情并没有真正发生。但确实仍然有理由对这些事情保持警惕,并所能去防止这些事情发生。关键是实际上不需要任何AI 系统来传播虚假信息,就像 Twitter 向我们展示的那样。

Kara Swisher最近你也因为提出文化机构、图书馆、基金会应该将它们的内容提供给免费和开源的 AI 基础模型训练(比如 LLaMA)而受到很多批评。你是在回应哈佛大学发布的新数据集,这个数据集由超过一百万本书组成,但这些都是公共领域的作品,不是现存作家、艺术家、学者的作品。谈谈关于这些 AI 模型吸取所有文化知识的担忧,尤其是创作者、作家、研究人员的知识,却没有得到任何认可。互联网公司一直以抓取数据而闻名,Walt曾经把 Facebook 称为贪婪的信息窃贼,但他可能是在说 Google。谈谈关于这个问题的争议吧。

Yann LeCun抛开所有这些法律问题,如果你有这样的愿景:AI 将成为所有人类知识的存储库,那么所有人类知识必须能用来训练这些模型,而现在大多数知识要么还没有数字化,要么已经数字化但没有公开,而这些不一定是受版权保护的材料,法国国家图书馆的内容中很多已经数字化,但并没有用于训练,所以我并不是在讨论受版权保护的作品。我父亲的家族来自法国布列塔尼的西部,那里的传统语言,直到我曾祖父那一代还在讲,是布列塔尼语。布列塔尼语正在消失,现在大约每天有 30,000 人讲布列塔尼语,这个数字非常小。如果你希望未来的语言模型能够讲布列塔尼语,那么就需要有足够的布列塔尼语训练数据,这些数据要从哪里获取?你将依赖文化非营利组织收集资料,也许政府会提供一些帮助之类的。他们也希望使用了这些数据,系统就能讲布列塔尼语,但拥有语言资料的组织和政府可能并不想就直接把数据交给大公司,毕竟大公司通常来自美国。但我所设想的未来,这并不是公司的政策,而是我的个人观点,是通过一种分布式的方式,训练一个通用的 AI 系统,作为所有人类知识的存储库,这样全球将会有多个数据中心能使用本地数据来为训练全球系统做贡献。

Kara Swisher那么,谁来运行这个全球系统?

Yann LeCun那就是谁来写Linux。实际上 Linux 主要由公司员工支持,他们会指示员工分发自己的贡献,可以有一个类似的系统,大家共同为这个全球模型做贡献,这就是短期内面向语言模型的 AI,涉及那些不一定能直接盈利的东西。但你可以在其基础上进行盈利,Linux 是免费的,但如果你购买一款运行 Linux 的工具,比如 Android 手机,或者内置 Linux 系统触摸屏的汽车,你为这个小工具付费。所以 AI 也将是这样,基础的模型将是开放且免费的。

Kara Swisher看起来,像是少数几个大公司掌控了一切。现在是这样的。这个愿景很美好,但它并没有实现,对吧?

Yann LeCun我个人认为这是不可避免的。

Kara Swisher你曾和其他“ AI 教父们进行过公开辩论, Geoffrey Hinton 和 Yoshua Bengio,他们两人一直在敲响警钟,警告 AI 的潜在危险,他们呼吁更加严格的政府监管和监督,包括对研发的监管。而你则称他们的警告是完全的废话,谈谈为什么你认为这是完全的废话?你们其中一项分歧是关于美国首次尝试 AI 监管的加州 SB1047 法案。Hinton 和 Bengio 都支持这项法案,而你则反对,你写道,监管研发将对 AI 系统产生灾难性的后果所谓生存风险的幻觉是由少数爱妄想的智库推崇的。我不能说这两个人是爱妄想的,Hinton 刚刚因他的工作获得诺贝尔奖。州长否决了这项法案,但也正在与像斯坦福大学教授 李飞飞等人合作重新修订法案。谈谈为什么你称这些担忧为完全的废话?

Yann LeCunGeoff 和 Yoshua 都是我的好朋友,我们已经是几十年的朋友了。我在 1987 到 1988 年期间做博士后时和 Geoff Hinton 一起工作,所以我们已经认识了 40 年。和 Yoshua 也是一样,我第一次见到他时,他还是硕士生,而我已经是博士后了,所以我们一直在一起工作,我们一起获得了这个奖项,因为我们一起重振了现在我们称之为深度学习的技术,这是今天很多 AI 技术的根基。所以我们在很多事情上有共识,但也有些分歧,其中之一就是人类面临着生存风险的威胁。Geoff 认为当前的大语言模型具有主观经验,而我完全不同意这一点,我们以前在一些技术问题上有过分歧,但那时是比较私下的讨论,更多的是技术上的争论,这并不是我们第一次意见不合,我们仍然是好朋友。Yoshua 的观点略有不同,他更担心的是人利用 AI 系统做坏事,像是开发生物武器或化学武器之类的事情。我认为这些危险已经被讨论了好几年,且被极度夸大以至于扭曲。例如有些人会这么说,去年如果你问他们 AI 会多久杀死我们,他们会说五个月,而显然他们错了。

Kara Swisher你在说的这个问题是关于 AGI,以及我们离它还有多远。我希望你能为大家解释一下。当他们听到这个时,往往会想到《终结者》或《iRobot》之类的情节。Hinton 和 Bengio 认为 AGI 的时间表可能是五年左右,而我们还没有准备好。你曾说过,可能需要几年,甚至十年。当它杀死我们时你就犯了一个很大的错误。所以,谈谈为什么你一点都不担心,因为确实有很多人不同意你的观点。

Yann LeCun其实赞同我观点的人比不同意的人要多得多。问题是那些不同意的人显然非常害怕,所以他们变得非常直言不讳。如果我认为存在某种生存风险,当然我也会非常直言不讳地警告大家。

Kara Swisher曾有一个人对我说,如果我不制止 Sam Altman,人类将面临灭绝,而我当时就说,这不就是《终结者》的情节吗?而且我又不是Linda·Hamilton,所以不可能。但是谈谈为什么你不担心。

Yann LeCun毫无疑问,在未来的某个时刻,我们会拥有比我们更聪明的 AI 系统。这肯定会发生。是五年,十年,还是二十年?真的很难说。我个人认为最早可能会是五到六年,但更可能是十年,甚至更长,因为这可能比我们想象的要难。在过去几十年的 AI 发展史中,人们一直低估了事情的难度。此外,我们没有自动化的机器人,也没有 Level 5 的自动驾驶汽车。今天,我们还不知道如何用 AI 系统做很多事情。所以在我们找到一套新的技术来实现这一目标之前,我们甚至还没有走上通向人类水准智能的道路。一旦我们有了某种蓝图,或者有了某种可信的证明,表明我们可能已经找到了通向人类智能级别 AI 的道路,我不喜欢称它为 AGI,因为人类智能其实是非常专业化的。一旦我们有了蓝图,我们就会有一个很好的方法来思考如何确保其安全。

这有点像,如果你倒退回到 1920 年代,有人告诉你,在几十年后,数百万乘客将会以接近音速的速度飞越大西洋,那时如果有人说,天啊,你怎么让这变得安全呢?而涡轮喷气发动机还没有发明,如果你还没有发明涡轮喷气发动机的话那你怎么能让涡轮喷气发动机安全呢?我们今天正处于这样的境地。我并不是说涡轮喷气发动机设计时就考虑到不安全的问题,涡轮喷气发动机本身就是极其可靠的。你知道,最近有一个统计数据公布,美国航空公司自上次致命事故以来,总共运送的乘客的距离是 2.3 光年,这是一个惊人的数字,可见涡轮喷气发动机非常安全。所以,你知道,让 AI 安全的意思是以安全的方式设计这AI 系统,但在我们没有一个设计方案之前就无法让它们变得安全。所以,这个问题本身没有意义。

Kara Swisher你似乎并不担心人工智能会想要主导人类。你谈到过这个想法。一位母亲的儿子自杀了,因为这些AI代理有些不寻常。但你曾经说过,当前的AI比一只猫还笨,无论AI是否有意识似乎都无关紧要,如果它很笨,不想主导我们,也不想杀我们,你觉得对AI研发会有什么限制是合理的呢?如果有的话

Yann LeCun对于研发应该没有限制。很明显,如果你想推出一个家用机器人,而这个机器人可以为你做饭,你可能想要对它进行一些硬性规定,这样当机器人手里拿着刀子时,在有人围绕着它的情况下,它不会挥刀伤人之类的。这些就是防护措施。所以当前AI系统的设计在某种程度上本质上是不安全的。MIT的很多人可能会讨厌我这么说,但是你基本上需要训练它们进行适当的行为,你想要行为是什么样的。我提出过的另一种架构是目标驱动型架构,在这种架构下,AI系统的基本任务是完成一个目标,除了完成这个目标外不能做任何事情,同时受到一系列防护措施的约束,这些约束本身也是目标,这将保证无论系统产生什么输出或采取什么行动,都会满足这些防护措施和目标,并且是安全的。

下一个问题是,我们如何设计这些目标?很多人说,我们以前从未做过这样的事,这完全是新事物,我们必须发明一种新的科学。但实际上我们对这个很熟悉,就是制定法律。法律基本上改变了人们采取行动的成本,所以我们通过制定法律来塑造人类的行为,我们也会对AI系统做同样的事。不同之处在于人类可以选择不遵守法律,而AI系统,按设计它必须遵守,没有选择的余地,法律会被嵌入其中。

Kara Swisher但现在,HintonBengio都支持一封由现任和前任OpenAI员工签署的信,要求AI公司的员工有权警告这些技术可能带来的严重风险,而普通的举报人并不能保护他们。你没有支持这封信。同时,我们已经看到欧盟的某些监管,它们区分了高风险AI系统和更一般用途的模型,他们对某些应用进行了禁令,称其威胁公民权利,例如面部识别。为了让它更安全,模型该如何建立?你是建议我们等到坏事发生之后再设立防护措施吗?等到有谋杀事件时,再去做吗?

Yann LeCun我的建议不是这样。像在公共场所禁用大规模面部识别,这是件好事,没有人会认为这是坏事,除非你是个专制政府,一些人认为这是件好事,实际上,它已经在某些国家存在。这些措施是完全有意义的,但它们是针对产品层面的。同时,更改某人的面部表情,在一些视频中做一些修改,这类事情现在基本上是合法的,我们有了工具并不意味着它不再违法,可能需要针对这些事情制定特定的规则,我对此没有异议。我反对的观点是认为AI本质上是危险的,并且需要对研发进行监管,原因是我认为这是适得其反的,如果在未来我们拥有那些我所说的开源平台,它们对未来的民主等事物是必要的,而这些监管规则会基本上使开源变得高风险,以至于没有公司愿意分发,从而让一小部分位于美国西海岸的私人公司控制一切。现在,任何一个美国以外的政府,告诉他们这样一个未来——每个人的数字生活将会通过AI助手来调节,而这些都将来自美国西海岸的三家公司。他们会认为这完全不可接受,这简直是我们民主的死期。人们如何获取多元的意见?如果一切都来自美国西海岸的三家公司,我们都会有相同的文化,说相同的语言。这完全不可接受。

所以他们想要的是开源平台,这些平台可以根据任何文化、价值体系、兴趣等进行微调,以便全球用户有选择的权利。他们不必只用来自这三家公司的AI助手,他们可以使用很多不同的助手。

超越LLM:下一代AI的挑战与潜力

Kara Swisher所以你担心的是OpenAI、微软、谷歌,可能还有亚马逊会进行统治。接下来最后两个问题,我们可以迅速回答观众的几个问题。你获得了2024VIN未来奖。在你的获奖感言中,你说过,AI不像人类或动物那样通过从物理世界获取大量视觉观察来学习,但你一直在努力让这一点发生。你已经谈论过一段时间了,我想了解你在做什么?因为你也曾说过,AI的末日预言者们之所以是末日预言者,是因为他们不相信人类本质上是善良的,而你相信。考虑到你对当前政府的看法,它的发展趋势,以及全球各地的专制政府等问题,我有点难以理解这一点,因为你表达为民主担忧,为专制政权担忧,那为什么仍然认为人类本质上是善良的呢?你预想这一切会在几年内发生吗?它会像人类或动物一样,还是会有其他样子?

Yann LeCun我们未来确实会将拥有像人类和动物一样学习的系统,能够像人类和动物一样高效地学习新技能和新任务,我们目前无法通过机器复现这一点。像特斯拉等公司,他们有成千上万小时的汽车驾驶数据,他们也在用这些数据来训练人工智能系统,但这些系统仍然不如人类好。同样,我们现在买不到家庭机器人,因为我们还做不到让它们足够聪明。原因很简单。正如我之前所说,我们训练LLM和聊天机器人是基于所有公开可用的文本数据,还有一些其他的内容,这些文本大约有20万亿个单词。每个单词大约用3字节表示,所以大概有60万亿个字节,数字是六后面有13个零。我们把它四舍五入到1014次方,1后面跟14个零。现在,跟一个发展心理学家谈谈,心理学家会告诉你,一个四岁的孩子已经醒了大约16,000小时,在这16,000小时里,视觉信息以每秒大约2兆字节的速度传输到孩子的大脑视觉皮层。这一计算的原理是,我们有一百万根视神经纤维,每根大约携带1字节/秒的信号。我们有两只眼睛,所以大约是2兆字节/秒。16,000小时就是1014次方字节。这就是孩子从视觉上接收到的数据量,和最大的LLM通过文本数据接收到的数据量差不多,我们每个人读完这些文本数据可能要几百年。

所以这告诉我们,通过单纯训练文本,我们永远无法达到人类水平的人工智能。我们必须训练它们通过感官输入来学习,基本上是无限量的。我们拥有的视听数据比我们能处理的还要多,因此未来几年的人工智能发展挑战是,让系统通过观看世界的变化,观看视频,并与世界互动来理解世界的运作。这尚未解决,但很有可能在接下来的五年里会取得显著进展,这也是为什么你会看到这些公司开始研究类人机器人,他们现在还不能让它们足够聪明,但他们寄希望于人工智能在接下来的五年里取得足够的进展,到时候这些机器人可以投入市场,就是人工智能足够强大的时候。

现场观众问答

Q你谈到治理的时候,我看到你戴着眼镜,我最关心的事情之一是人工智能与空间计算和环境技术交叉领域的治理。你能谈一下你的看法吗,以及我们在为此建立治理时要关注什么?

A我并不是一个产品专家,也不是一个政策专家。我从事的是人工智能的基础研究,但之前提到的Google眼镜,基本上因为社会互动的问题,大家不太适应,所以它失败了。奇怪的是,这些眼镜并没有造成类似的社会剧烈反应。现在,当我拍你照片时,镜头上会亮一个小灯,这样我就不能在你背后偷偷拍照,这其实跟用手机拍照差不多,所以,我不能对任何具体的情况发表意见。我并不支持像在公共场所大规模使用人脸识别技术,我认为那是对隐私的侵犯。类似的事情我并不赞成,但我没有什么万能的解决方案。

Q基于我对认知科学的基本理解,我真正感兴趣的是建立理解AGI主观性的基础,更重要的是AGI如何获得类似于人类的意识,而不仅仅是像人类那样处理信息呢?

A在我们设想的人工智能系统的愿景中,未来几年我们将构建的这些系统将具备情感,这是系统设计的一个基本不可分割的部分。为什么它们会有情感?因为它们会受到目标驱动。你给它们一个目标,它们的任务就是完成这个目标并且只能完成这个目标,同时受一系列防护措施的限制,这些防护措施是硬编码到它们设计中的。为了完成这个任务,它们需要一些组件。

首先,需要一种方法来判断我们给它们的目标是否完成。它们还需要我们所谓的世界模型。什么是世界模型?它是我们每个人在前额皮层中都有的能力,它让我们能够预测我们行为的后果。这也是我们能够规划一系列行动来完成特定目标的能力。如果你有这种能力,能够提前预测一系列行动的结果,那么你就能预测目标是否会实现。如果你预测结果不好,你会感到恐惧。如果你预测结果很好,那就像是欣喜若狂。所以,能够预测并采取行动以实现这些预测,产生了类似情感的效果。因此,足够聪明、能够推理和规划、拥有世界模型的人工智能系统将会有情感。

Q我想知道你能否谈一两个积极的例子。例如,我们还没提到AIAlphaFold,在医学学校中的影响令人惊讶。或者如果我们回到最近的LLaMA3Jensen Wang和印度的Ambani,基本上Ambani表示,如果没有看到LLaMA3,他不会想到印度的教育机会。作为辅导员的AI agent来辅导学生和老师可能是一个有趣的想法。

ALLaMA3,或者说我们称之为整个LLaMA群体,它的开放源代码让人们能够自己调整它,使其能够在某个特定的垂直应用上发挥作用,或者使用某种特定的语言。例如,我们有一个前同事在塞内加尔,他的公司通过一个能够讲法语、沃洛夫语以及其他半打地方语言的聊天机器人提供医疗援助。我们也正在与印度的几个组织合作,下一版本的LLLaMA将支持印度所有2229种官方语言,这还没有涵盖整个印度。它涵盖了95%的地区,但印度有700种语言,其中大多数是口语语言,不是书面语言。而现在我们有技术能够让聊天机器人处理纯口语语言,这真是令人惊讶。我上周刚去越南参加一个奖项活动,类似的努力也在试图让AI能够讲越南语。

这种情况在全球范围内都有出现。人们正在微调这些模型,用它们做一些我们坦率地说之前根本没想到可能实现的事情。因此,我认为我们需要更加有意识的全球合作伙伴关系,让这些系统从一开始作为基础模型就能讲世界上所有的语言,并理解所有文化,因为这样一来,这些努力就更有可能成功,并能够为各种应用构建专门的系统。

我们做了一个实验,把这些眼镜给印度乡村的人们,他们非常喜欢,因为他们可以用自己的语言与它交流,提出问题。比如看着一株植物,作为农民的他们看到植物生病了,然后他们可以问他们的AI助手,看看这个是什么,如何治疗,未来一周的天气会怎样等等。所以正如一开始所谈的,这一切都会变得越来越好。我当时在现场,我相信这一点。

Q你提到了分布式系统,基本上是为了达到人类智能级别的AI。我之所以问这个问题,是因为我几乎花了一年时间在训练AI模型,包括开源和闭源的。我在英语和其他一些语言上做得很好,但上周我访问了约旦,发现像ChatGPT和其他LLM在那里的效果非常差。我觉得我让人们有些过于乐观,像是哦,这个可以解决世界的问题。你怎么看这个问题?

A我认为这与分布式系统有关。你提到的那条推文的目的是为了给出一个想法,就是世界各地的人们可以合作起来,做一些事情,建立本地数据中心,尤其是AI数据中心,如果他们有能力的话,政府可能在其中扮演重要角色,但私营行业也可以,收集世界各地有用的文化材料。

不过人们已经在做这些了。实际上,最近阿布扎比的阿联酋NBC人工智能大学发布了一个由LLaMA3衍生的模型。他们把LLaMA3微调,使它能够说阿拉伯语,或者至少是阿联酋使用的阿拉伯语,并提供医疗援助。它实际上是一个多模态系统,还能够分析医疗影像等等。人们可以这么做,因为它是开源的,如果没有开源他们是做不到的。

Q它会改变这一切,会让一切变得更好,每个人都会和谐相处,正如你一直在强调的,我非常尊敬你这一点,现实世界存在仇恨、功能障碍、孤独、经常面临危险的人的困境,亿万富翁控制我们政府的现象等等,为什么这次我应该相信你?

A我不是亿万富翁,但我过得还不错。首先,我是个科学家。如果我没有某种程度的诚信,我无法在镜子前面对自己,所以你可以相信我没有在撒谎,也不是出于不正当的动机,比如贪婪之类的。当然我可能错了,这正是科学过程的一部分,你必须接受自己可能错的事实,而阐明正确的观点来自于不同观点的碰撞和不同意见的碰撞。我们看看那些认为AI会摧毁社会的人的证据,因为我们将被虚假信息或仇恨言论所淹没,但我们根本没有看到这种情况。人们会制造虚假信息,并尝试传播它。让我给你一个关于Facebook的统计数据。很多人试图在Facebook上传播仇恨言论,而Facebook的内容政策是不允许这么做的。现在,我们对抗这种行为最有效的工具是AI。举个例子,在2017年,AI技术还不够好,无法让FacebookInstagram检测出全球所有语言的仇恨言论。2017年底,AI系统自动删除的仇恨言论比例约为23%。五年后的2022年底,这个比例达到了95%。而这过程中发生的事情就是AI的进步。所以,AI并不是用来制造仇恨言论或虚假信息的工具,它实际上是对抗这些问题的最佳对策。因此,你需要的只是让好人手中拥有更强大的AI,而不是让坏人手中拥有这样的工具。

原视频:Kara Swisher and Meta's Yann LeCun Interview - Hopkins Bloomberg Center Discovery Series

https://www.youtube.com/watch?v=UmxlgLEscBs&t=1804s

编译:Elaine Wang

AI 前线

智能体工程

2025-12-24 22:47:23

AI 前线

太猛了!谷歌悄悄在 Gemini 里塞了个 N8N 进去

2025-12-24 22:48:07

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索