文章作者基于对 2025 年上海世界人工智能大会(WAIC)的线上直播见闻和线下活动感受,分享了对 AI 行业的思考。线上部分,作者提及 AI 在生物、医疗、机器人、密码学等领域的应用进展,并讨论了 AI 智能“演化”与“涌现”的概念。作者指出 AI 的本质是“电力转智力”,并强调数学、推理和编程是 AI 时代的关键能力。线下部分,文章简要介绍了大模型可解释性、动态超声等前沿研究,并引用了对当前大模型和 AI Agent 发展困境的批判性观点(如“大模型暴论”)。文章核心质疑“通用 Agent”的实用性,认为其受限于高成本、模型幻觉和上下文长度。最后,作者预测“浏览器+AI”将成为桌面 AI 应用的主流形态,并提出浏览器是 AI、Agent 等执行的理想宿主容器。文章整体对 AI 行业的狂热现象保持理性,呼吁关注实际价值。
今年的上海世界人工智能大会(WAIC)异常火爆,总能看到各种刷屏。这次的 WAIC 我虽未报名,但连续三晚参加关于 WAIC 的 party 活动,让我仿佛又参加过了 WAIC,挺梦幻的感觉,但也收获颇丰。那就展开聊聊吧,全凭记忆拼凑,主要分为线上(直播)和线下(活动)两部分。

线上
WAIC 我虽没参加现场,但也看了部分直播视频。如 AI 结合生物、医疗、人脑等,做的各种相关研究,来进一步探索生物内在联系;也有结合数学、物理、密码学等进一步深化理论研究的;AI 结合各种硬件出现了各种仿真机器人,可以搬运货物或照顾陪伴人类(如养老护理、咖啡机、下棋、毛绒玩具等);还有各种大模型、云服务商等等。


听到一些有趣的点:
- 关于 AI 智能,用“演化”可能比“涌现”更好(也可能是“衍化”,具体我没听出是哪个词)。
- 水有三种状态:液态、固态、气态。对应到人体细胞也是类似的,所以癌症病变只是细胞状态发生了改变,理论上这种状态变化是可逆的(和水类似,病变细胞也有再还原的可能性)。
- 模型连题都没读懂,更别说咋做了。如何确保 AI 读懂题了,才能谈到回答的对不对(没做对,可能只是没听懂,不是不会做)。

- 在密码安全学领域,gemini-2.5-pro、o3 已经达到人类顶尖博士(清华姚班)水平了。这是相当牛逼的成绩,因为密码学会涉及到数学、计算机交叉学科,只有两方面都是顶级的人才有可能在该领域做出重要研究成果。但目前 AI 已完全接近这个领域顶尖,所以它对普通人解决日常问题完全够用。

📌 涌现 vs 演化
是“涌现”还是“演化”,亦或是“衍化”,我自己也没搞清楚,就让 AI 给了个总结,大家可以自品。
在人工智能,特别是大语言模型的发展语境中,“演化”相较于“衍化”是一个更准确、更具解释力的术语。尽管两者都带有“发展变化”的含义,但它们在语义侧重点和使用场景上存在本质区别。
“演化”通常指系统或能力在时间尺度上的渐进式发展,强调连续性、可追踪性以及内在机制的变化过程。这一概念源自生物学中的“进化”理论,但早已被广泛应用于复杂系统科学、技术研究和 AI 模型分析中。将模型能力视为演化过程,有助于我们理解其性能是如何在模型规模扩大、训练数据增多、架构优化中逐步积累出来的。这种视角也与当前对大模型 scaling law[1] 的研究高度契合。
相比之下,“衍化”更常用于描述某种结构或功能从已有体系中分支、派生出来,语义上更强调源-流关系、模块分化或逻辑推导。在 AI 场景中,“衍化”适用于描述从基础模块中派生出变体结构的情况,如某种算法或组件的变形版本,但并不适合用来描述模型能力整体的成长路径。因此,它在表达复杂模型的系统性能力演进时显得过于狭窄甚至容易引发歧义。
此外,近年来关于“涌现现象”的研究也反过来强化了“演化”视角的合理性。一些被认为是“涌现”的能力,比如推理、编程、数学计算能力,往往并不是突如其来地出现,而是在模型规模扩展的过程中逐步增强,只是由于我们采用了粗糙或非连续的评价指标(例如准确率达到某阈值)才造成了“突然跃迁”的观测假象。因此,从研究建模、机制解释到表达准确性角度来看,用“演化”取代“涌现”甚至更具理论价值,而“衍化”则难以承担这一语义负载。
综上所述,在需要使用一个统一术语来描述 AI 模型能力的发展过程时,选择“演化”不仅在语义上更准确、使用范围更广,也更有助于形成一致的技术叙事。除非特指结构分支或逻辑派生,否则不建议使用“衍化”来替代“演化”。
AI 最前沿的应用领域可能就数生命科学类研究了,从蛋白质预测到癌症定向治疗,这些似乎都在告诉我们 AI 正在参与改写人类自身。机器人也是今年的一个超热门,我在看刘润直播 WAIC 时听到几个有趣的点,凭借自己模糊印象加理解,整理了几条:
AI 的本质就是将电力转为智力(电力 → 算力 → 智力)。- 未来应该学什么:
数学、推理、编程。 - 个人理解:在 AI 驱动的时代,数学是理解智能系统本质的基础,推理是人类在模式洪流中保持独立思考与判断力的核心,而编程则是与 AI 协同、驾驭其能力的操作语言;掌握这三者,不只是获取技术技能,而是在构建一种适应未来、引领变革的认知架构与思维方式。总结一句话就是:
数学是 AI 的地基,推理是人类的上层建筑,编程是人机之间的桥梁。 机器人三要素:感知、决策、行动。目前市面上的大部分 AI + 硬件都在围绕这几个方面或某一个方面在做深度研究。- 比如 AI + 手环,主要就在感知监测人类,给出更多指导性建议。
- 下棋、冲咖啡、敲击乐器类的 AI 并没有太高的技术门槛,虽有市场,但观赏性居多。主要决策都是在模型层发生的(如果非自研,也就是调用个 API),机械臂只需按指令执行几个特殊点位。
技术首先是用来解决贵的问题,当发展到一定阶段后才会解决便宜的问题。比如今天的机器人不但贵,解决问题的能力还不好,在单位时间内解决问题的成本远高于保洁阿姨,对普通用户市场来说就是没有价值的。但贵不代表没有价值,它可以替代人解决一些危险问题。不要和大模型竞争主航道,而是做为大模型提供服务的事,可能做着做着就找到自己的机会了。- 比如搞硬件、给大模型提供标注数据、提供机器人/狗的虚拟训练环境来等。为大模型提供基础或周边服务,同样具有价值。
- 在现实中,垂直领域都是各种脏活累活,大模型不会直接参与,所以这些场景中也蕴藏诸多机会。
- AI + 医疗:在中国,这种医患严重不均衡的地方,或许真的可以挽救一个生命。在三四线甚至更落后的地区,半吊子医生多如牛毛,连简单的对症下药都做不到。如果有 AI 作为辅助,可以提高不少准确率(比如医生可能只询问某个症状就给你开药了,但一些症状可能只是并发症,如果多问几个症状,可能又是一种结果。这些我们都可以描述给 AI 获取最佳指导建议)。这些涉及到到药理反应和人体的交叉知识,AI 往往比人做得更好。
- AI + 教育:在中国,教育也是一个很难绕开的话题(资源严重分布不均)。在封建王朝,全国最牛的老师,往往只服务于太子,普通人是享受不到这类教育资源的。印刷术的出现让知识可以被记录,可以传播到更大更远的地方,但每个人的理解力不同,造成了同样的文字也可能会产生巨大的理解鸿沟。目前 AI 已基本达到人类顶级专家(博士)水平,可以轻松做到千人千面,因材施教。
- ...
📌 未来学什么?
数学:AI 的语言,世界的结构
数学不只是抽象思维训练,它是 AI 的根基。从神经网络背后的线性代数,到概率论、信息论,再到优化算法、微积分,AI 所有核心机制都是数学模型的具象化。更重要的是,未来随着 AI 向自动化科学、自动定理证明、形式化验证等高阶认知任务发展,对数学能力的需求会显著提升。掌握数学 = 掌握建模能力 = 能与 AI 进行深度合作。
推理:区别人类智能与统计机器的关键
当前大模型(如 GPT)虽有惊人的语言能力,但它们主要基于模式识别,而非真正的因果推理与逻辑演绎。未来 AI 要真正实现通用智能(AGI),推理能力是决定性门槛。而人类若想不被取代,必须具备对复杂系统、抽象逻辑、跨领域知识的综合推理能力。推理能力是与 AI 协同工作、纠错监督、提出深层问题的关键人类价值所在。
编程:人与 AI 协作的接口语言
随着 AI 编程能力增强,编程已从“构建系统”变成了“与系统对话”。编程不再只是写代码,更是定义规则、指令 AI、操控系统的方式。未来你不需要成为程序员,但你必须具备“思维可编程”的能力 —— 把问题结构化、拆解成模块、用逻辑组织起来交给 AI 实现。懂编程 = 懂得如何指挥 AI 做复杂任务,这会是一个全新的人机协作范式。
WAIC 大会也远非我所看到或了解到的这点信息,以上内容也从侧面反映了 AI 正在加入融入到生活的方方面面。原价百十元的门票已经被黄牛炒到了数千元,足以看出大家对人工智能的“狂热”。不能回归理性,很可能就是下一个泡沫。
线下
连续三天晚上参加了 WAIC party 活动(规模大,质量高。平均每场都在上百人,大部分都是领域专家或博士生),让我这个没有参加过 WAIC 大会的人,也收获颇丰。这几天接收到信息量太大,一时间我也不知道该如何将脑子里的信息具象描述出来,只能简单写点特别有记忆点的了。我也有幸成为一场活动的分享嘉宾,聊了些 Noi 的设计理念(可惜时间比较赶,很多关于 AI 的看法都没聊到,只能通过这篇文章来表达了)。补充一句:Noi 近期会发布新版本,大家只需关注 https://github.com/lencx/Noi 更新即可(到时候也会发公众号文章,软件完全免费、无服务器纯本地化应用,可放心安装)。


大模型可解释性
上交大张拳石老师研究的课题,致力于让黑盒大模型变为灰盒或白盒(大幅降低模型幻觉)。因为我本身不是搞机器学习的,所以很多术语也是一知半解。感兴趣的朋友可以自行翻阅论文。我个人理解到的点:精心挑选一些样本数据来对市面上的大模型进行测试,通过对输入数据进行部分遮蔽来观察大模型表现,这其中很关键的一个点,模型本身是相对固定的(相同问题的回答结果相对确定,不至于太随机)。



动态超声
医学领域我也不太懂,现在回忆当时的演讲内容也有点模糊了。大致意思可能是:我们传统的超声仪器很难拍摄或难以区分软组织受伤状态(一动就痛,不动没事,这是一个动态的输入),而动态超声就是为解决该问题而生的。肿瘤切除,可以通过超声荧光双模态技术检测肿瘤切除的残留情况等。




大模型暴论
罗璇老师也是个有趣的人,这些暴论看似“暴论”,实则道出了 AI 的现有困境,全是大实话。会上分享的内容挺多,我拍了几张图大家可以感受一下。尤其是最后一张:“OpenAI 指明错误方向 → Meta 把错误方向开源 → 中国 AI 公司往错误方向烧钱”。






一些思考
活动上有个小型圆桌讨论,主持人也特别专业,是很有意思的一个环节,可惜没拍照。几位嘉宾分享了对 AI 行业的深刻洞见以及通用 Agent 所面临的种种困境。圆桌分享的信息量太大,很多内容我现在只有模糊印象了,但我还是想基于自己的认知理解来聊聊 AI 的一些事。
说到 AI,尤其是关于 Agent 的话题,我一直都认为“通用 Agent” 就是个谎言。从 Devin 出来那会说要取代程序员,再到后来的 Manus、各种 AI 浏览器等等,我都不是特别看好。

首先我并不想喷某个产品,因为我也没资格。我只是想站在自己的角度聊聊 Agent 这件事:通用意味着泛化到任意领域都可以解决问题,更多时候是需要模型层来解决,其次是提供强大的工具调用环境,不是一个简单的虚拟浏览器操作环境就可以称为“通用”。虽然没用过这类通用 Agent 产品,但如果让它写一段复杂程序,我认为它大概率是搞不定的,那又何谈“通用”?
都说 Manus 的出圈是因为它给普通人带来了更好的人机交互,但这种交互应该也不是 Manus 首创,早在 Devin 出现时,就是类似的可看回放操作的界面(似乎没啥本质区别,只不过针对程序员确实小众了些)。我不看好这类产品还有一个原因,上下文长度和模型幻觉让我觉得 Agent 还有很长的路要走,目前很多产品仍处于早期阶段。MCP,Agent 当前最火的应用应该还是在 IDE(代码编辑器)里的使用(配置过于复杂,对普通人并不友好)。而 Dify、n8n 之类的 workflow,虽支持高级定制,但 Agent 能力也十分有限(比 IDE 配置要简单一些,虽不用写代码,但也配置繁琐,普通用户上手成本也不低)。一句话来说:这些都不太适合小白(傻瓜一键式)。
大模型公司也顶不住 Token 的压力(电力、算力成本过高),开始变相提高调用费用或增加各种限制。再回过头来看,Agent 这种无脑烧 Token 来换取不确定性结果的路子,又能走多久?成本总要有人来承担,免费使用也不代表没人付钱,只是产品帮你支付掉了而已(所以用户量越大,可能赔得越多)。
📌
就在今天,Anthropic 还发布了最新帖子:将于 8 月底起对 Claude Pro 和 Max 用户实施新的每周调用上限,预计仅影响不到 5% 的用户。由于 Claude Code 在 Max 套餐中需求激增,部分用户甚至 24 小时不间断运行,导致资源压力巨大。例如,有用户在 $200 计划下产生了数万美元的模型调用成本。此外,还有少数人违规分享或转售账号,影响整体服务质量。为保障大多数用户体验,8 月 28 日起将启用新的每周限额机制,并允许 Max 用户按 API 标准费率额外购买用量。Anthropic 表示仍在探索更公平的使用方式,并欢迎重度用户反馈如何更好支持其需求。

我一直感觉 AI 中还有个悖论:随着 AI 模型的发展,Token 价格会不断降低,但 Token 的总使用量可能也是指数增加,最终花的钱可能更多了(原来 $20 订阅感觉够用,现在 $200 也感觉不够用)。当能源算力问题没有根本解决之前,Token 的成本不可能无限降低...
我对 AI 的预测,单从桌面应用来说,下半场大概率还是“浏览器 + AI” 的对决。Arc 团队搞了个 Dia[2],Perplexity 团队搞了 Comet[3]、微软也在自家 Edge 浏览器中支持 AI 等等(Microsoft Edge transforms into an AI browser with new Copilot Mode[4]),当然国内也有一些类似产品,包括我自己也在做类似的事情。或许大家都开始意识到一个问题:与其说是浏览器,不如说是一个容器,为 AI、Agent、Workflow、MCP 等的执行提供一个宿主容器。MCP、Agent 之所以在程序员圈子快速普及,很大一部分原因是系统本就具有各种开发环境,程序员对各种复杂配置也几乎无感(写代码往往比配置复杂多了,但普通人就没这么容易了)。IDE 是 MCP、Agent 运行的完美宿主,在普通应用中很难找到这样的存在,所以一圈排除下来,浏览器可能就是最完美的载体。
📌 思考
IDE 是以编辑(内容输入)为核心,浏览器是以浏览(容纳展示)为核心,没啥本质差别,都在围绕其核心做生态罢了(功能或插件)。
我认为 AI 最理想的承载形态应该是白板(可容纳图片、视频、音频、文字等多模态内容),但加上 MCP、Agent 之后(需要本地宿主机),似乎就是一个类似于浏览器的小型操作系统环境。
References
[1]
scaling law:https://arxiv.org/abs/2001.08361
[2]
Dia:https://www.diabrowser.com
[3]
Comet:https://www.perplexity.ai/comet
[4]
Microsoft Edge transforms into an AI browser with new Copilot Mode:https://www.theverge.com/news/714435/microsoft-edge-copilot-mode-ai-features
