吴恩达：图灵测试不够用了，我会设计一个 AGI 专用版

AI 领军人物吴恩达提出将设计一个全新的“图灵-AGI 测试”，以弥补现有 AI 评估方法在衡量通用人工智能（AGI）方面的不足。他指出，随着 2025 年被视为“人工智能工业时代的开端”，AGI 概念被频繁提及，但缺乏统一的定义和有效的测试标准，导致公众高估了当前 AI 水平，业界过度炒作 AGI。传统的图灵测试仅聚焦对话交互，无法衡量 AI 的实际工作能力。吴恩达的“图灵-AGI 测试”旨在让 AI 像人类一样完成多日、多阶段的知识型工作，例如担任客服并接受培训和持续反馈，并强调 AI 的经济性和实际产出。此测试不会预设固定测试集，以避免 AI 针对性训练刷榜，能更真实地评估 AI 的通用能力，并期望通过公开测试来纠正社会对 AGI 的过度期望，促使行业回归到更实际的 AI 应用开发上，并为真正的 AGI 突破提供可信的判定依据。

鹭羽发自凹非寺

量子位 | 公众号 QbitAI

新年新气象！AI大神吴恩达2026年目标公开：

要做一个新的图灵测试，他称之为图灵-AGI测试。

光看名字就知道，这个测试专为AGI而生。

去年是AGI水涨船高的一年，吴恩达在其年度总结中也曾表示：

2025年或许会被铭记为人工智能工业时代的开端。

创新推动模型性能到达新的高度，AI驱动的应用变得不可或缺，顶尖企业人才争夺激烈，基础设施建设推动社会生产总值增长。

学术界和工业界频繁提及AGI概念，硅谷的公司也会为抢先AGI定下季度目标。

但关于AGI的定义至今还没有统一标准，现有基准测试还常常误导大众，使其高估当前的AI水平。

吴恩达注意到该趋势，于是新的图灵测试将试图弥补这一空白。

正如网友所言：

要衡量智能首先要定义智能。

传统的图灵测试在AGI时代显然不够用。

它由艾伦·图灵在上世纪五十年代提出，提出用人机对话来测试机器的智能水平。

在测试过程中，人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者，那么就算通过了测试。

但现在的AI显然不再满足于简单的对话交互，而是要构建起经济有用的系统，所以亟需一个能够衡量AI工作能力的测试。

而这就是图灵-AGI测试的核心，要让AI像人类一样智能，并完成大部分的知识型工作。

测试对象将会是AI系统或专业人士，他们将会被提供一台可以访问互联网并配备浏览器和Zoom等软件的计算机。

裁判将通过计算机为测试对象设计一个多日的体验任务，比如作为客服，会先被培训一段时间，然后要求执行接听电话的任务，并需要提供持续的反馈。

只要AI能够像人类一样熟练完成工作任务，就会被认为通过测试。

该测试将聚焦AGI的经济性和实际产出，更接近普世意义下对AGI的初始定义——可用于工作和生产场景的智能。

它也会比基准测试更考验AI的通用能力。

现在几乎所有的AI基准测试，如GPQA、AIME、SWE-bench等，都会预先确定一个测试集。这意味着AI团队都会直接针对已发布的测试集来调整他们的模型。

这就导致很多AI模型榜单排名靠前，但真实物理世界中又能力不够。

去年闹得沸沸扬扬的Llama 4刷榜丑闻就是其中一个典型，明明数据看起来都很不错，但用户真正上手后却傻眼了。

此外，固定测试集只能衡量AI在某一狭窄领域的能力。相比之下，图灵测试可以由评委自由提出任意问题，没有提前限定范围，更能判断系统在通用任务上的表现。

在改进的图灵-AGI测试中，延续了这一设定，裁判可以任意设计体验任务，而受测试的AI或人类测试者均不会事先知道任务内容，这将比基准测试更能判断AGI水平。

同时为了校准社会对AI的期望，吴恩达表示，或许他将举办一场图灵-AGI测试，让所有AI参与其中。

即便最后的结果会是所有AI系统均未能达到标准，但也能平息长期以来对AGI的过度炒作。

这种降温将会为AI领域创造更稳健的环境，让行业重新聚焦于非AGI级别的实际进步，比如开发有实用价值的应用，而不是沉迷于实现AGI的营销噱头。

从长期来说，图灵-AGI测试也会为AI团队设定一个具体的努力目标，而非模糊地实现人类级智能。

倘若真有某一家公司能够通过测试，其成果也必定具备真实价值，图灵-AGI测试将会为真正的AGI突破提供可信的判定依据。

所以接下来，只需拭目以待。

参考链接：

[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20

[2]https://www.deeplearning.ai/the-batch/issue-334/

{{userData.name}}已认证

吴恩达：图灵测试不够用了，我会设计一个 AGI 专用版

Hinton 的亿万富豪博士生

因为 AI 编程，Tailwind CSS 差点死了

RAG 技术演进的四大核心命题

用第一性原理拆解 Agentic Coding：从理论到实操

来火山引擎部署 Moltbot，9.9 元打造私人 AI 助手

MCP 胜出的原因

刚刚，OpenAI 正式发布 o3-pro！奥特曼激动更新博客：温和的奇点｜机器之心

喝点 VC｜a16z 圆桌：每一次平台迁移，改变的不仅是应用，更是人与计算交互的抽象层次