该文章由一位资深前端开发者撰写，回顾了 AI 从 AlphaGo 到 ChatGPT 的爆发历程。作者结合自身成功将 ChatGPT 套壳为桌面应用（获得 54k+ Stars）的实践经验，深刻洞察并分享了对 AI 发展趋势的思考。文章首先批判了当前“AI 泛滥”现象中存在的利用信息差和贩卖焦虑的行为。随后，作者将 AI 形态分为模型和使用两部分，重点分析了 AI 应用从网页到桌面应用、CLI 工具，直至 AI 浏览器的演进，指出其核心趋势是“深度集成，弱化权限边界”。在技术实现层面，作者详细比较了 Electron 与 Chromium 二次开发在构建 AI 浏览器时的优劣，并提出未来需要一套“为 AI 量身定制的浏览器 API 层”。最后，文章针对信息过载时代如何有效学习给出了建议，强调问题驱动、靠近一手信息源和主动输出的重要性。

深度思考：聊聊 AI 发展趋势

嗯，本来是不打算写文章的，但最近类似的话同太多人分享过，就想记录下来，作为自己这几年的一个简单回顾吧。文章可能有点长，也有点晦涩难读，因为它除了包含一些技术术语、AI 发展趋势，还有大量个人思考。平时我也会让 AI 辅助搭框架，撰写信息类文章（在我看来信息流有没有 AI 味不重要，重要的是表达清楚观点，让内容可验证，是对读者的负责）。但这一次，AI 却无法帮助我了，因为这些都是我脑子里的话，更想自己直接表达出来。这篇文章会带给你一个宏观技术层面的认知，这也是我这几年写 AI 类文章（已经写了大概两百多篇）、用技术做产品所沉淀下来的思考吧。

其实这篇文章完全可以写成付费系列，但为了让文字更好的传播，我还是决定以免费版发布。如果真有所收获可以点赞、转发（唉，很多人都说我文章写的不错，但一直苦于没有流量，我也几乎没有在文章中特别要求过大家要转发、点赞、评论啥的，在我看来都是干扰信息，会破坏文章结构，文中自动插入的广告也是没有办法的办法，因为几乎没人打赏，也只能吃点微薄的流量广告费了，可以明确说，一篇 3-5000 阅读的文章，也就几块到十几块不等，特别好的，比如触发了一些误点，可能会有几十块的收益吧），如果可以进行小额打赏，我也十分感恩，提前谢过大家了（这几年虽是无工作无收入状态，但为了保证公众号的纯粹性，我拒绝了大几百个推广，老粉应该都能感受到）。

文章很长，大致分为背景、“AI” 泛滥、AI 形态 & 技术实现（重点阅读此部分，它才是这篇文章最想写的东西）、如何学习等部分，大家可以先挑拣自己喜欢的部分阅读。当然我还是更建议大家顺序阅读，因为它是层层递进的关系。我已经很久没有写过大跨度的思考类文章了，要是录成视频，感觉两小时也说不完，文字我已在尽最大可能压缩。

背景

聊 AI 发展史这个标题有些大（标题党嫌疑），更准确来说是聊聊近几年 AI 发展趋势，以及自己的一些技术性思考。

AI 发展几度沉浮，太久远的不提，说点近的，比如 AlphaGo^[1] 在围棋领域因击败人类世界冠军，而震惊世界（从盲目自信到一败涂地，人们才逐渐开始正视那个被人创造出来的玩意）。但之后似乎又回归平淡，没啥动静了。

深度思考：聊聊 AI 发展趋势

柯洁这段视频蛮有意思，对 AI 的态度也是 180 度大转弯。只能说，曾经年少轻狂，大意了...

📌 AlphaGo

是 Google DeepMind 开发的围棋 AI 程序，基于深度神经网络和蒙特卡洛树搜索（MCTS），通过学习大量人类棋谱并自我对弈训练而成。它在 2015 年以 5:0 战胜欧洲冠军樊麾，2016 年在首尔以 4:1 击败世界冠军李世石，引发全球关注；随后以 “Master” 账号在网络上对世界顶尖棋手取得 60 连胜，并在 2017 年乌镇峰会上以 3:0 战胜当时被认为世界最强的柯洁。AlphaGo 的这些代表性战绩，标志着人工智能在复杂博弈领域第一次全面超越人类顶尖高手，也被视为现代深度学习时代的重要里程碑之一。

直到 2022 年 11 月 30 日， ChatGPT^[2] 的出现打破了平静，让 AI 这把火一直燃烧到现在，而且没有要熄灭的迹象。11 月 30 日是官方正式发布日期，其实在这之前 GPT 已经在社区开始流传了（到今天也是刚过 3 周年，我写这篇文章似乎又有了特别的意义）。

深度思考：聊聊 AI 发展趋势

我第一次接触到它，是在微信朋友圈（技术圈子还是好使，更容易接触到前沿信息）。开始的几天常被它刷屏，自以为又是噱头，主要是国内一惊一乍的表达方式让人有后遗症了。最终在好奇心的驱使下，我尝试点开了它。这才发现“不简单”，国内既无法访问，又无法注册（需要海外手机验证码）。当时真没少折腾，在搞定注册后，我甚至专门写了篇《ChatGPT 注册教程》，万万没想到这会成为我开始接触 AI、学习 AI、表达 AI 的起点，这一天是 12 月 5 号（我只是一名普通前端开发，对 AI 更是一窍不通）。 2 天后，也就是 12 月 7 号下午，我决定用正在探索学习的 Tauri^[3] 技术（基于 Rust^[4] + 系统 Webview 实现的跨平台开发框架），为 ChatGPT 开发一个套壳桌面应用（期间发生了很多趣事，对此故事线感兴趣的朋友可以细看“技术背景”部分，其中微信截图我最大限度保留了当时对话的核心上下文，也算是记录一个顶级开源项目的诞生吧）。

关于项目，我写过两篇文章，建议大家去读读，都是些掏心窝子的经验：

流量密码：ChatGPT 开源的一些思考（如何快速将产品落地）
开源揭秘：35k+ Stars ChatGPT 桌面应用（深度技术揭秘）

其中一些话，我特别想再次分享出来：

技术是死的，而人是活的。技术要想产生价值必须要依附于所能解决的问题。发散式思维：在了解一个新技术或事物后，一定要去了解它的生态和周边，这些生态都将是你灵感和开发的源泉。
做一件事情时，身边必然会出现不和谐声音，但他们的观点并不可以左右你的行动。就个人而言，我不喜欢被束缚，因为提 PR 就意味着你必须按照别人的想法去做，事情会变得不可控（通过/拒绝）。我创建项目的初衷并不是为了服务于人（也没想着会火），主要是为验证自己的一些想法。迈出第一步，你将拥有无限可能。遇到问题解决问题，一个问题会衍生出一个新问题，这些实战会让你迅速成长。
在我看来价值是一个很抽象的东西，但人们往往又喜欢用结果去衡量一个东西的价值（比如有多少用户，赚了多少钱等等）。举一个简单的例子：我经常混迹在 GitHub 社区，也看到过许多很牛的项目，是它们撑起了海量的上层应用，但是它们的关注度却不高，你觉得它们有价值吗？也有许多博眼球项目，含金量不高，却获得了巨大的关注度，你觉得它们价值高吗？在这个以结果为导向的世界里，不管做什么事情，都避免不了被问到：“你做这个东西有什么价值？”。
当你有了比较心，得失心，在做一件事情时就会变得畏手畏脚，甚至不屑去做。想的多不是坏事，当你在试图最大化利益时，往往也会丢掉许多可能性。人们常说的机遇是什么？我认为它就是：一个人在积累知识，学习技能的同时，善于用发展的眼光去观察这个快速变化的世界，当你有能力去解决某个问题时，它对你来说就是一次机遇。

📌 技术背景

这部分内容也有点长，不喜欢看技术上下文的朋友可以跳过。简单总结下：在我决定为 ChatGPT 套壳桌面应用前，基本完成了所有前期技术准备。我本身是一名半路出家的前端开发，大专学历，机械制造与自动化专业，2014 年毕业，2015 年被培训机构坑进编程行业，开始了自学掉发之旅。2017 年左右偶然接触到 rust，开始自学，为了将 rust 与前端结合起来，又解到

webAssembly^[5]，当时还创建了个 rsw-rs^[6] cli 开源项目，用来解决 rust 实时编译 wasm，类似于前端的热更新，再到后来又接触到 tauri（靠兴趣驱动学习）。

以下是两个微信群的截图，webAssembly 群创建于 2021 年 1 月 21 日，tauri 群创建于 2022 年 7 月 20 日。

深度思考：聊聊 AI 发展趋势

rsw cli 项目算是我的 rust 学习小成果吧，已经脱离了 demo 范畴，当时已有人将其用于真实业务开发了。

深度思考：聊聊 AI 发展趋势

再到后来，我开始了解到 tauri，知道它可以用 rust + html + css + js 开发桌面应用时特别兴奋，因为既能学前端，又能学 rust，简直完美。之后，就开始尝试用它做各种 demo。因为打包后的应用体积特别小（3-5M），很适合用来做小工具。我当时就在想是不是可以用它来打包一个网页，让其成为 app，WA+ 项目就是在此想法下诞生的。

深度思考：聊聊 AI 发展趋势

在做 WA+ 项目时，就在解决一些 tauri 套壳 web 页面的问题，脚本如何注入，进程如何通信等（修改网页行为，可以理解为浏览器插件）。当 ChatGPT 出现时，很自然就萌生了给它套壳的想法，因为我觉得它这么“强大”，不该只是网页。网页是轻量级，用完即走的感觉，就像微信“小程序”，也在宣传轻量级、无需安装、用完即走。明显 ChatGPT 不属于用完即走的逻辑，我虽然只是简单体验，但感觉它必然会常驻系统（高频使用，浏览器 Tab 将不再适合）。事实证明，我是对的。这个项目在开源仅仅几个月后，就获得了上万 stars，曾经 google 过亿搜索量。已经两年多没更新了，截止到目前，也有 54.3k+ stars。

深度思考：聊聊 AI 发展趋势

其实在项目刚开始时，也被人质疑过，说你明明可以给别人贡献 PR，非自己造轮子。经过这几年，回头看，我十分感恩当年冲动不听劝的我。如果没有 ChatGPT 套壳应用，不会有人认识我，或许也就不会深度了解 AI，学习 AI、写 AI 了。所以我想对那些正在挣扎犹豫的人说：如果想去做一件事，那就去做吧，纠结别人的评价只会让自己痛苦，除此之外，并不能获得任何东西（趋势的判断力需基于认知，真犯傻不听劝也大可不必）。

深度思考：聊聊 AI 发展趋势

“AI” 泛滥

这里的 AI 我特别打了个引号，此 AI 非彼 AI。两年半前我在《AI 浪潮下的一些浅思》中就提过，它特指一类现象。比如：

做第三方服务：卖账号，代充值，做镜像站点，小程序机器人等。
纯利用信息差：打着自研旗号，售卖各种开源工具，框架等。
贩卖人性焦虑：利用盲从心理贩卖焦虑，创建各种付费群，星球等知识付费平台。
利用工具收割：AI 技巧速成，利用 AI 赚钱的教程也比比皆是。

总结一下：其目的基本一致，利用信息差，贩卖人性焦虑。以此来营造一种“在 AI 来临的时代，你再不学 AI，就要被淘汰了。AI 将取代大部分打工人，现在你只需要花费很少的钱，就可以领先所有人一大步”。但是事实真的如此吗？三年过去了，AI 仍在快速发展，但远未达到取代人的地步，尤其是高精度工作，可靠性仍需人来保证。

当然，最疯狂的还要数自媒体，两天一小嗨，三天一大嗨，读者几乎每天都在震惊中度过。最可笑的是，昨天文章还在夸 xxx 牛逼，结果今天就发打脸文（看似打脸，实则没有一点不好意思，毕竟流量真香）。

信息泛滥成灾，尤其是在 AI 的加持下，产垃圾速度也是呈指数上升趋势（图中元素关系不准确，但大概意思没错）。

深度思考：聊聊 AI 发展趋势

在国内聊 AI，出海似乎是绕不开的话题。人人都在搞 AI 创业出海，总让人产生应用比人多的错觉，这里就不做评价了。可以聊聊我看到的一些红海现象，出现一个不错的 idea，就会被无数次翻版复刻。产品数量要远大于想法，不知是人的锅，还是 AI 的锅，毕竟大家都在 vibe coding。在 AI 的加持下，技术小白也开始指点江山（如果 AI 是人，不知道会不会在心里骂上两句）。

📌 Vibe Coding

技术和 AI 的关系是相辅相成的，如果纯小白不想学编程，只想用 AI 解决问题，在我看来有点痴人说梦，不现实。如果自己都不知道边界，又怎么能设计出有边界的产品（边界是指技术的边界，知道技术边界在哪里，才能设计出最大化利用边界能力的系统）。

在编程中，盲人摸象是有点可怕的。vibe coding 可以帮你快速出一版 demo，但很难持续迭代。在开发某个功能时，如果自己都不知问题所在，是很难将它描述给 AI 的（中间会产生无数沟通成本）。比如下面这个例子，虚拟滚动几乎是大数据量渲染的必备技能，没有此方面经验，你会在门外久久徘徊。说它是大坑一点也不夸张，元素动态高度会牵扯到布局位置计算，ai coding 很难一次完美实现，基本都需人工介入。即使让 ai 用一些 lib，遇到麻烦配置，也是一堆问题。

深度思考：聊聊 AI 发展趋势

想法被翻版是其次，冲击最大的仍是大模型自我迭代。我一直就有的想法，不能做大模型战略发展规划上的事。比如 PDF 总结，翻译，随着基础模型能力的提升，会让一切技术优化手段都失效（甚至整个需求都将消失）。Prompt 工程、LLM 微调既重要又不那么重要（有时间窗口，在某个时间内，需要帮大模型补齐短板）。真要建议，我认为可以根据大模型能力做差异化：大模型能力的延伸（如本地知识库），构建 ai 补充生态位（连接第三方，属于脏活累活，比如 n8n），更符合 ai 交互的产品（ai 的本质还是服务于人，交互体验会直接决定用户的去留）...

前段时间我也写过《浅谈产品、流量、编程...》，其中就涉及到项目冷启动、流量、产品、打榜的一些看法，也可以读读。最让我佩服的还是国人的 PH 打榜能力，和多年前的淘宝刷单如出一辙（穷人靠变异，富人靠科技）。

AI 形态

AI 用一句话来说，就是将电力 + 算力转化为智力的过程。理论上，算力、电力无限，就可以源源不断产出智力（从能量利用效率上说，肯定不如人，但胜在可批量生产，不知疲倦，7x24 小时工作）。

AI 形态是一个很大的话题，我们可以展开细聊。我自己把它分为模型和使用两部分：

模型形态：多模态，如文字、图像、音频、视频生成等。
使用形态：网页、应用、命令行、浏览器、机器人等。

深度思考：聊聊 AI 发展趋势

模型形态

模型多模态能力，这几年一直在稳步提升，没啥特别要强调的。值得一提：尽管它在整体感知、常识和长期一致性上与人类还有明显差距，但这并不妨碍它在一些特定场景里“替代人完成工作”，尤其是高危和高度标准化的重复性任务。

高危行业：在高危场景中由 AI/自动化系统替代人类，本身就具有极高价值——哪怕部署和运维成本暂时高于人力，也依然划算。
流水线行业：凡是能被拆解为标准化流程的岗位，本质上就是机械性重复，是最容易被 AI + 自动化改造的部分；流程越容易被量化成“AI 操作手册”，越适合被替代。反过来说，越难量化的领域越难被 AI 完全取代。
创意类行业：这一块边界很模糊。AI 拥有接近「世界级资料库」，但如何选择、组织和编排内容，目前还不存在一条确定、可控的路径（尤其在主流 Transformer 架构下，“幻觉”问题仍然难以根除）。这种不确定性让“快速生成大量创意”变得容易，却也让“稳定地产出高度精确、可控的结果”变得异常困难。
...

使用形态

这部分能聊的东西特别多，从 chat 网页，到 app、再到 cil、ai 浏览器等。看似混乱，实则有迹可循（需结合多模态能力）。

如果让你设计一个东西来承载 ai 的能力，你认为最理想的容器是什么？问题可能有点宽泛，我们可以限制在电脑、或者手机上（暂不讨论机器人）。在正式回答这个问题前，我们先列几个事件节点：

网页 Chat：AI 早期形态，大部分 AI 都以此形态和大模型交互（文本交互为主，Prompt 工程出现）。
应用 Chat：与网页版没有太大区别，甚至功能不如网页版丰富，但它提供网页所不具备的一些能力（如系统权限）。
大模型上下文协议 MCP：这是 AI 能力的一个重要分水岭，它通过规范化协议来教会模型如何使用工具，拓展自身能力，大大降低了 Agent 开发门槛（了解更多深度解析：Anthropic MCP 协议、浅谈 Agent、MCP、OpenAI Responses API）。
Code CLI：如果说 MCP 为 AI 能力插上了翅膀，那程序员就是将 MCP 进一步发扬光大的重要群体。虽然没有明确证据，但程序员绝对是最先将 MCP 应用于开发工作流的群体（坊间甚至流传这样一句话：MCP 开发者比用户还多）。
AI 浏览器：Agent 能力集大成者，在此之前，还有各种 AI 工作流（如 n8n、dify 等）。核心是 AI 能力，而非浏览器本身，它只是 Agent 的一个载体罢了。
...

AI 还有很多重大事件，但以上几个标志性节点已经可以帮我们梳理出这样一个趋势：深度集成，弱化权限边界。

深度思考：聊聊 AI 发展趋势

📌 说人话

从使用形态来看，AI 这几年经历了一个看似分散、实则有迹可循的演化过程：从网页 Chat，到桌面 / 移动 App，再到 CLI、MCP 协议和 AI 浏览器。表面上只是壳子不同，背后其实是一条清晰的趋势：多模态输入输出 + 更深的系统集成 + 更弱（更细粒度）的权限边界。

早期的网页 Chat 是主流入口，大部分面向普通用户的生成式 AI 产品都以网页对话为核心形态，交互以文本为主，Prompt 工程也在这个阶段成型。随后出现的应用 Chat 在交互上与网页差别不大，但开始拿到通知、文件访问、剪贴板等系统能力，为后续更深的集成打基础。

大模型上下文协议（MCP）则是能力结构上的分水岭：通过一套规范，把“工具使用”和“外部系统”纳入模型可见的上下文，让 AI 不再局限于对话，而是可以通过统一协议调用各种工具，极大降低了 Agent 开发的门槛。

在此之上，Code CLI 成为开发者最自然的承载形态之一（代表有 Codex^[7]、ClaudeCode^[8]、GeminiCLI^[9] 等）：MCP + 命令行，使得模型可以直接嵌入到本地开发 / 运维工作流，包括文件操作、构建、测试和部署等。与之相对，AI 浏览器（代表有 Dia^[10]、Atlas^[11]、Comet^[12] 等）更像是面向终端用户的 “Agent 总控台”：它本身不是重点，重点是通过浏览器这个入口把网页内容、Web 应用和多模态能力都接给 Agent 使用。

把这些节点连起来看，会发现一条清晰的趋势：随着多模态的成熟，AI 不再满足于停留在单一网页对话，而是不断向操作系统和应用层延伸，借助 MCP、CLI 和浏览器等不同容器，逐步实现对工具、数据和权限边界的更深集成。CLI 和浏览器的区别在于：前者主要服务开发者和自动化脚本，后者则成为普通用户跨网站、跨应用使用 Agent 的统一入口。

📌 CLI vs 浏览器

CLI 是“机器给机器看”的界面，浏览器是“机器给人看”的界面。前者服务的是 AI 执行回路，后者服务的是人类的感知与决策。

所以在我看来，CLI 和浏览器的出现都是必然，它们服务的“终端用户”有明显不同：CLI 更像是 AI 的工作现场，浏览器则是人类的观察与干预界面。

对 AI 来说，完成自动化任务并不需要窗口、按钮或图标，一条稳定的文本流就足够支撑它思考、调用工具、产出结果。命令行正好符合这种“纯符号”工作方式：协议清晰、可脚本化、易于编排，是最接近 AI 内在形态的外部壳。只要任务是端到端自动完成的，CLI 几乎不需要顾及任何人类交互体验。

一旦把人拉入环路，事情立马复杂起来。人类需要结构化排版来阅读，需要图像、视频、音频来理解，需要拖拽、点击、表单来参与决策。浏览器刚好站在这个交叉点上：它天生支持多模态展示，又能向操作系统借用文件读写、摄像头、麦克风等能力，于是成了人类与 Agent 共处一屏的默认容器。

所以，CLI 的回归不是开历史倒车，而是 AI 时代的一种“底层复位”：在那块黑底终端里，唯一的用户是程序本身，自由度最高；而对绝大多数普通用户而言，没有浏览器这样的可视化中介，AI 的能力既难以被理解，也难以被信任。当任务都可以无人值守地闭环执行时，人类不再需要频繁“看一眼”，或许 CLI 才可能成为唯一界面吧。

技术实现

我不是 AI 专业，所以在大模型的问题上，没啥发言权。但 Ilya 有，刚好前几天还写过一篇关于他的播客《Ilya Sutskever：AI 研究、泛化与未来之路》，事后一些观点被人错误解读，在科技圈引起巨大关注，让 Ilya 被迫下场澄清（在我看来，他的观点本身没啥问题，或许是扛不住资本舆论的压力吧，毕竟 AI 泡沫不能就这样破了）。

深度思考：聊聊 AI 发展趋势

大模型技术不能聊，还是可以聊点我知道的东西。我这两年一直在开发 Noi（AI 浏览器），所以对 AI 应用层面上的思考更多一些。如果你正在开发类似产品，这些经验或许会让你少走些弯路。

深度思考：聊聊 AI 发展趋势

框架选型

AI 浏览器是近半年最卷赛道之一，前有 Dia，后有 Comet、Atlas 等，还有一些国内公司也在做。但在我看来仍是千篇一律，前段时间在《ChatGPT Atlas 发布，AI 浏览器大乱斗...》、《浅谈 AI 浏览器》里聊过。这次我想再深一点，从技术实现层面聊聊。

最近刚好有人咨询过我类似问题，团队想做 AI 浏览器，推荐什么技术选型。其实目前主流框架就两个（Electron^[13] 和 Chromium^[14]），认真来说，就一个 Chromium（Electron = Chromium + Node.js）。Tauri 之类的基于系统 webview 框架，在我看来，压根排不上号。

在选 Chromium 框架作为 AI 浏览器核心，也有两个选择，且十分重要：

Electron：对技术要求相对较低（主要写 nodejs 代码），API 升级平滑，但定制化程度稍低（chromium 内核版本随着 electron 的升级而升级）。
Chromium：在源码基础上二次开发（主要写 c++ 代码），相当于 fork 版本，之后源码的一系列更新（新特性、修 bug 都需要手动去 merge 代码），会让维护难度指数上升。属于走钢丝级别，任何一个小失误，都可能玩崩（无法构建、或跨平台不一致等）。

为啥说系统 webview 连上桌的机会都没有（tauri）？主要是跨平台一致性很难保证（当系统 webview 出现 bug 时，很难去 fix，只能等待系统升级，但用户很难买账），其次是难以复用 Chrome 插件体系（生态小了很多）。

📌 原生开发 vs 跨平台方案

“原生还是跨平台？”和 “vue 还是 react？”一样，是编程界永恒的引战话题。与其上来就站队，不如先承认一个现实：它们解决的问题不一样，适合的团队和阶段也不一样。

如果只看浏览器类应用，用 chromium 二开当然诱人：你能从内核层面定制一切——进程模型、渲染策略、权限边界、协议栈…，理论上可以打造一套“属于自己”的浏览器内核，性能上限和自由度都极高。但代价也写在招人 JD 里了：

要有懂浏览器架构、C++、多进程、多平台打包和安全沙箱的人；
能够排查解决各种性能问题、内存泄露等；
...

内核性能好 ≠ 你写的应用一定稳，原生只是把“造轮子”的底线拉得更低，工程质量好不好，仍然取决于团队。很多团队在做技术选型时，容易只盯着“技术纯度”和“理论性能”，忽略了其它成本：

招人难度和培训成本
需求变化带来的重构成本
各平台适配、发布、升级的运维成本

一个更接地气的例子：假设你要做一个“超大数据量渲染 + 富交互”的列表应用，如果用原生来写，你要从底层解决绘制性能、重排重绘、虚拟列表、缓存策略，甚至还要考虑音视频解码、渲染管线等一系列细节，多个平台还得各写一遍。而如果你用 web 技术栈：

浏览器本身就是一个“小型操作系统”，帮你封装好了文本布局、滚动、表单、音视频播放。
V8^[15] / JSCore^[16] 这些引擎已经极其成熟，配合合理的架构和虚拟滚动，性能完全够用。
web 生态自带整套轮子：虚拟列表、图表、富文本、音视频播放器…，你更多是在“选配件”，而不是“自己开矿炼钢”。

这也是为什么我们会看到一个非常有意思的现象：许多 AI 产品的网页版远比 App 版更强。深度用过的用户大概都有感觉：

网页端有插件、工作流、复杂可视化、实验性功能；
App 端经常是一个“精简壳”，只保留对话和少量系统集成功能。

根本原因不是团队“偏爱 web”，而是原生把每一项复杂能力都变成一笔真实成本：

要重写 UI 组件和交互逻辑；
要重新处理多媒体、文件系统、沙箱权限；
要适配 macOS / Windows / Linux / iOS / Android 各自的坑。

对快速迭代的 AI 应用来说，这些成本往往直接让很多功能“在原生上根本来不及做”，所以没必要迷信 “原生 = 高级，跨平台 = 将就”。更现实的看法是：

原生适合极致性能、深度系统集成、安全要求极高的核心场景（比如视频编解码引擎、游戏内核、Driver 级工具）。
Web / 跨平台适合需要快速试错、频繁更新、依赖生态组件的产品形态（尤其是 AI 应用、工具类产品、面向多平台的创作工具）。
很多成熟产品的长期形态，往往是：“整体跨平台 + 关键路径原生化”，而不是一开始就全盘原生。

技术栈只是载体，作为软件构建者，我们更应思考的是：在你的团队规模、产品阶段和资源约束下，哪种方案能 以更低成本、更快速度，把“电力 + 算力”尽快变成对用户可见的“智力体验”。这才是选型时应该反复追问的本质问题。

产品形态

大模型公司去卷“浏览器形态”，几乎是必然。因为从产品视角看，浏览器就是当下 Agent 能力最合适的载体。早期我们只能在网页里做一点半自动的 Agent 功能，或者靠插件去勉强扩展；一旦牵扯到系统权限、跨页面操作、长流程任务，这套东西立刻就捉襟见肘。

把 Agent 拆开看，并不神秘，本质是：“感知页面 → 做出决策 → 驱动浏览器自动操作”。滚动页面、点击按钮、填写表单，这些动作本身和 AI 一点关系都没有——没有大模型，你照样可以写脚本、写 RPA 去完成。AI 真正带来的增量在于：谁来决定下一步做什么——是点 A 还是点 B？是继续翻页还是去搜索框改一下关键词？这部分从“写死的脚本逻辑”升级为“概率化、上下文相关的智能决策”，准确率和泛化能力才真正拉开差距。

📌 RPA

RPA 就是 用软件机器人去替人干重复的电脑操作。全称 Robotic Process Automation，直译为“机器人流程自动化”，但这里的“机器人”不是实体机器人，而是跑在电脑里的程序。它擅长：

盯着屏幕 / 窗口
模拟人点击、输入、复制粘贴
按设定好的流程，把“一遍一遍重复的活”自动做完

典型场景有：

每天从邮件里下载附件 → 重命名 → 丢到某个文件夹
从 ERP/CRM 里查数据、导出报表
在网页上填一堆表单、点来点去做业务流程

跟“脚本 + 宏”的区别是：

RPA 更偏业务人员能配置的工具（流程图式可视化配置）；
AI 不一定参与，很多 RPA 完全是“死规则 + 固定流程”。

往下一个阶段看，我认为真正缺的是：一套为 AI 量身定制的浏览器 API 层，而不是割裂的 AI 浏览器应用（太多了，根本装不完）。现在主流做法都是基于 CDP^[17]（Chrome DevTools Protocol），在浏览器底层暴露出点击、滚动、输入、截屏、获取 DOM 等能力，大部分所谓“AI 浏览器”其实都是在这层之上包了一层 Agent（大部分都在基于 playwright^[18]、puppeteer^[19] 实现）。理想状态下，这套 API 应该对“任意大模型”是统一的、高度抽象的：

上面一层是语义化的动作描述（如 “点击主内容区的第一个购买按钮”）；
下面一层是稳定、可观测、可回放的浏览器控制接口。

当这种 “AI 友好型浏览器 API” 成熟之后，浏览器不再只是跑网页的壳：

一个既对人类友好，又对大模型友好的“双栖运行环境”；
人和 Agent 可以在同一块屏幕上协同操控同一套界面，这才是浏览器形态真正有意思的地方（支持切换模型，而非切换浏览器）。

深度思考：聊聊 AI 发展趋势

如何学习

这是一个信息过量、注意力稀缺的时代，终身学习似乎早已无法避免。面对 AI 生成式的信息洪流，我们又当如何？此方面，我也写过一些文章：

先要承认一个现实：知识是学不完的。你从 1+1 开始，后面还有加减乘除、代数、微积分、再往后还有无穷无尽的新概念。对大部分人来说，如果不做研究工作，加减乘除已经足以覆盖日常生活；但身在某个圈子里，很容易产生错觉——“这个也必须懂、那个也不能落下”。视野越局限，越容易把一切都当成“刚需”，随之而来的，就是持续的知识焦虑。

与此同时，我们被碎片化输入包围：短视频、信息流、标题党推送，让人连一篇几千字的文章都难以读完，更别说安静地思考、推理或输出了。没有信息会焦虑，信息太多同样让人焦虑。更隐蔽的问题在于，碎片化输入会制造一种“我好像一直在学习”的幻觉：你的大脑被刺激得很忙，但知识结构并没有真正长出来。

更健康的学习方式，是从恐惧驱动转向问题驱动——用到什么学什么，让“真实问题”来决定学习路径，而不是凭空给自己加一堆“应该会”的清单。一个更可靠的模式是：先遇到具体问题，再去追溯信息源，结合自己的已有知识和经验慢慢扩展，而不是为了缓解焦虑胡乱囤积概念。

信息的选择同样重要。尽量靠近一手信息源，关注长期深耕的领域大牛、官方文档、原始数据，而不是只吃被剪碎、被包装过的二手内容。二手信息往往带着延迟、偏差和噪音，信息差、智商税和弯路基本都长在这里。学习未知知识，更像是“扩展阅读 + 靠近源头 + 叠加已有认知 + 自己推演”的过程，而不是简单刷过几条短视频就算掌握。

“卷”本身是一把双刃剑。完全躺平、不学习，会被行业淘汰，这是现实；但一味用碎片化输入麻醉自己，只是换一种方式原地打转。更好的做法，是把内卷用在“思考和输出”上：保持持续输入，同时逼自己多写、多讲、多做 demo，在输出的过程中重组和校正自己的理解。真正的成长，往往不是“看了多少”，而是“你能说清楚多少，亲手做成多少”。

如果一定要给“如何学习”下一个极简公式，大概可以是：成长 ≈ 高标准要求自己 × 持续学习 × 主动思考 × 尽量多一点输出。学什么、学到什么程度，因人而异；不过度焦虑、不盲目贪多、不放弃思考，你将一直在路上！

📌 GEO vs SEO

这里举个 GEO 和 SEO 的例子，也是前几天被人问到。作为技术外行，很容易被 GEO 这类新词语所迷惑。SEO 大家都知道是针对搜索引擎优化技术（结构、内容、链接等），目的是让搜索引擎更好地收录并在结果页里把网站排前一点。而 GEO（Generative Engine Optimization）也类似，希望被大模型更好的收录，可以在回答问题时被作为信息源推荐。如果你有了解大模型爬虫原理，会发现一点也不神秘，本质上还是配置爬虫抓取规则，只不过是针对 AI 机器人罢了。

所以在 GEO 这个层面，和传统 SEO 没有本质断代：依然要用高质量、结构清晰的内容去打动“机器”，只是机器从“搜索引擎排序算法”升级成了“检索 + 大模型生成”。需要重视的部分是更偏 Agent / LLM 视角的页面优化，比如：更语义化的结构、更好的无障碍支持、更清晰的元素标记和动作入口，让模型更容易理解、定位和操作页面。这类实践我在《ChatGPT Atlas 发布，AI 浏览器大乱斗…》的拓展阅读里有讲，有兴趣可以结合一起看。

简言之：SEO 让你在搜索结果里被看见，GEO 让你在大模型回答里被引用。底层逻辑没变，只是“评审你的机器”和“使用你的场景”换了一代而已。