本文基于 OpenAI 首席研究员 Lukasz Kaiser 的观点,深入分析了人工智能的五个核心趋势。文章指出,AGI 的定义应从“取代人类”转向“增强人类”,AI 在数学和编程等数字领域已展现超人能力,但在物理世界受限于成本和技术。核心技术正从基于 Transformer 的“预测下一个词”转向具备“内部思考过程”的推理范式,使 AI 能够通过试错和反思解决复杂问题。此外,文章讨论了算力资源分配对模型表现的影响,以及多模态联合训练如何让 AI 更好地理解物理世界。作者认为,AI 将逐渐“吃掉”职业中可流程化的部分,未来的核心竞争力在于掌握 AI 工具并保持底层认知力。

内容来源:网络信息整理汇编。
责编 | 贾宁 排版 | 拾零
第 9412 篇深度好文:3047 字 | 9 分钟阅读
商业趋势
笔记君说:
“我们不要惧怕技术变化的速度。历史上每次技术跃迁,最早学习使用新工具的人总是最大受益者。AI就像当年的电脑、互联网,早点接触、早点理解,就能早点获得优势。”
这篇文章来自OpenAI首席研究员卢卡什·凯泽尔,他也是人工智能研究领域的资深人士,以下是他在对话中的自述部分,略有删减。
希望今天的内容,对你有所启发。
一、AGI(通用人工智能)的重新定义
其实我不太喜欢“通用人工智能(AGI)”这个词。现在很多人把AGI定义为“能做人类能做的任何事”,但这个定义有问题。
AI和人类根本是两回事——它在数学、编程等领域已经远超人类,但在物理世界里,机器人仍然笨拙。让AI在物理世界取代人类,目前技术上不划算,经济上更不划算。
从去年开始,AI推理模型已经能处理很多专业办公任务。它不再是几秒钟给你一个答案,而是能持续思考几小时,产出高质量成果。这意味着部分工作流程可以被自动化,让人类专注于更有创造性的部分。

所以,别担心AI会全面取代人类工作,但它确实会改变工作方式。就像Excel没有淘汰会计,但淘汰了不会用Excel的会计。未来,会用AI辅助工作的人,效率可能是别人的很多倍。
当前AI在编程领域的进步就是明证。一年前还难以想象,现在AI已经能编写复杂程序、处理大型代码库、审查安全漏洞。
我团队里一半的人,现在都是先让AI写一遍代码,再人工微调。这只是开始。
AI不会一次性取代整个职业,但它会逐渐“吃掉”每个职业中重复、繁琐的部分。律师的法律检索、医生的初步诊断、教师的作业批改、设计师的素材整理……你的工作有多少“可重复、可流程化”的部分,就有多少可能被AI增强甚至替代。
二、为什么AI有时聪明有时笨?
所有AI大公司都面临同一个限制:GPU(计算芯片)就这么多。付费用户可以使用更强大的模型,但像OpenAI这样的机构,核心使命是让更多人体验AI的能力。
唯一的方法,就是让免费版尽可能接近顶尖水平——这非常困难,因为需要在有限算力下做极致优化。
所以你会看到有时AI回答很快很准,有时却显得“变笨了”。这其实是系统在动态分配计算资源,让更多人能用到基本服务。

我们不知道算力的上限在哪里,但确定的是:我们需要比现在多得多的计算资源。有人担心这么多GPU是否能用完,我完全不担心。即便算力增加十倍,依然有巨大应用空间。我们可以训练更大的模型,然后精简优化。市场最终会调节投入产出比,这是好事。
AI服务有时不稳定、有时收费,背后都是算力成本的现实约束。但趋势是明确的:随着技术成熟和规模扩大,AI服务会越来越便宜、越来越易得。就像手机流量从昂贵到普及一样,AI能力正在成为新的“数字基础设施”。
三、AI从“背诵”走向“思考”
过去几年,AI主要基于Transformer架构,通过预测下一个词来训练。这种模式已经接近瓶颈,因为互联网上的通用数据基本用完了。
但新的推理范式才刚刚开始,我们已经证明这条路可行,随着方法改进,这条路的潜力巨大。
关键区别在于,旧范式是“预测下一个词”,新范式是“生成内部思考过程”。AI会为自己创建一些不展示给用户的“思考Token”,可以调用工具、搜索信息、运行代码,直到完成整个推理过程,才输出最终答案。

这意味着,AI正在从“知识库”变成“思考伙伴”。以前你问AI问题,它给出的是统计上最可能的答案;未来AI会真正“理解”问题,并展示思考过程。这对教育、咨询、决策支持等领域是革命性的。
AI的进步不会放缓,未来一两年可能会有剧烈的突破。这确实令人敬畏,甚至有些恐惧。
想象一下,未来每个人都有一个“数字思维伙伴”。它不会直接给你答案,而是陪你一起思考,展示不同的思考路径、指出你的逻辑漏洞、提供你没想到的信息维度。这不是替代你的思考,而是增强你的思考。
四、推理模型的本质
新推理模型的关键突破是:它学会了在思考过程中“试错”和“反思”。
比如,它会尝试一条路径,发现行不通,然后退回重新思考。它甚至会在搜索时发现信息矛盾后,主动寻找第三个来源验证。
这多么像人类的学习过程!我们也是通过尝试、失败、反思、再尝试来掌握复杂技能的。
这种能力不是通过简单训练获得的,而需要强化学习。这很困难——你不能从一个完全随机的状态开始,必须给AI一定的“思考基础”,然后小心调整训练方法。但一旦成功,效果就非常惊艳。

AI思考的时间变长了,因为它要权衡不同选项、验证不同路径。它学会了这些,仅仅因为我们给了它“必须得到正确答案”的信号。对人类学习来说,这是很弱的反馈,但对AI却足够。
所以,AI的进步路径对我们特别有启发意义:真正的学习不是记住更多信息,而是建立“试错-反思-优化”的循环。无论你是学习新技能还是解决工作难题,主动构建这样的循环,都能加速你的成长。
那些依赖经验、直觉、模式化的工作(如看X光片、法律文书审查),会被AI辅助;而那些需要真正创新、跨界思考、人际情感的工作,人类的优势会更长久。
五、AI正在理解整个世界
最新的AI模型是基于文本、图像、音频联合训练的。视频目前被视为图像序列,但原生化训练是必然趋势。
技术上说,我们把音频、图像编码成“Token”(词元),让模型预测下一个Token。这种方法效果好得惊人:生成的图像不再有六根手指,能呈现报纸文字;音频能表现口音、低语甚至歌唱。
谷歌最新的机器人模型也开始融入推理能力。这在物理世界很关键:底层需要快速反应(像本能),高层需要深思熟虑(像理性)。如何结合两者,需要更好的系统设计。

这意味着AI将从“文本专家”变成“多感官通才”。你可以用语音和它自然对话,给它看一张照片让它分析,甚至未来它能看懂视频内容。这种人机交互会越来越自然,就像和真人交流一样。
视频数据很多,但大部分信息冗余。如果要训练机器人,视频信息至关重要;但要理解抽象概念,文字更有效。语言模型已经掌握了人类大部分抽象世界,现在的短板是对物理世界的理解。
AI的“大脑”会很快成熟,但“身体”(机器人硬件)普及还需要时间。就像自动驾驶,我们以为它会很快到来,结果多花了十几年。这意味着,在至少未来5-10年,AI的主要影响还是在数字世界、信息世界、服务世界,而不是物理世界。

