他的 AI 实验给你哪些创业灵感？｜和鸭哥聊：给 AI 加上耳朵、眼睛，用 AI 买菜、寄快递

文章记录了一位资深极客鸭哥在 AI 领域的深度实验与思考。他通过自制语音输入法和全天候音视频记录设备（Apple Watch、Insta360），为 AI 提供了丰富且实时的个人上下文信息，解决了传统 AI 沟通信息不对称和缺乏记忆的问题。在此基础上，他构建了个人 Agentic AI 系统，成功让 AI 代劳买菜、寄快递等日常琐事，大幅提升效率，践行“赛博长生”理念。文章还深入探讨了 GUI 可能被取代的趋势、AI 主动介入的可能性，以及如何将 AI 视为“下属”进行管理，强调提供充足上下文的重要性，并对 AI 伦理和未来人机关系进行了富有启发性的思考。

未来属于最会用 AI 的人。

他的 AI 实验给你哪些创业灵感？｜和鸭哥聊：给 AI 加上耳朵、眼睛，用 AI 买菜、寄快递

👦🏻 播客采访：Koji、Ronghui

🥷 整理编辑：Bella

🧑‍🎨 排版：NCon

在科技行业里，有一些富有好奇心、动手能力又很强的极客，他们会在一些产品刚出现的时候就迅速上手，不仅使用，有时还会自己动手组装、魔改，把原本的产品玩出新的花样。

本期我们邀请的嘉宾鸭哥就是这样一位极客，最近我们知道，鸭哥在做一些 AI 实验，比如他自己做了一个语音输入法，用 Apple Watch 全天 24 小时录制自己说的话，这给 AI 更好地了解他提供了丰富的语料信息。

此外，他还把 Insta360 挂在胸前，拍下全天候的视频和照片 ——我们在访谈中说，鸭哥的这些 AI 实验，就像是给 AI 加了耳朵和眼睛，很好的解决了和 AI 沟通信息极度不对称的问题。不仅如此，他还成功地让 AI 帮他买菜、寄快递，等等。

在这期播客里，鸭哥跟我们分享了他的这些实验，以及他从中得到的收获。以及这样「极致的提高了效率」之后，他对人如何使用 AI 的思考。

我们邀请鸭哥来做客十字路口，因为我们相信他作为早期使用者（Early Adopter）的体验和折腾出的各种项目实验，能为许多 AI 创业者提供未来产品的灵感。

此外，鸭哥也是《Manus 爆火的背后：我们用 20 个问题一起搞懂 AI Agent》那一期的嘉宾，他的个人 Blog 「Computing Life^[1]」值得对 AI 感兴趣的朋友们读一读。

推荐：鸭哥的课程《From User to Builder》^[2]，帮助你从AI工具使用者进化为具备实战能力的Builder，用AI打造实用项目、提升工作效率、增强职场竞争力。

小宇宙收听：

微信直接收听：

本周我们也尝试录制并剪辑了视频播客，可以到 Koji 的小红书/B站/视频号观看（本文发布一周后，上线视频版本）。

Part 1 快问快答，认识鸭哥

👦🏻 Koji

请问鸭哥的年龄？

👨🏻 鸭哥

一上来就问这种让人伤感的问题（笑）。我已经是个老男人了，已经过了要被优化的界限。

👦🏻 Koji

毕业院校？

👨🏻 鸭哥

本科在中国科大。博士在 Columbia University

👦🏻 Koji

现在的工作身份？

👨🏻 鸭哥

在 Samsara 做 Applied Scientist，研究行车记录仪里的计算机视觉。业余也在持续探索 agent AI。

👦🏻 Koji 你的 MBTI 和星座是什么？

👨🏻 鸭哥

MBTI 忘了，只记得是很少见的类型。星座是天蝎座。

👦🏻 Koji

很多人是通过你写的技术文章认识你的。可以聊聊在 AI 和代码之外的你，是什么样的生活状态？

👨🏻 鸭哥

这个问题挺开放的，我确实有一些不太一样的经历。比如 2008 年我当过北京奥运会的火炬手，后来考了挖掘机、飞机、还有船的驾照。

这些看起来很酷的事情，其实背后都有一个动机：我想亲身体验人类可以做到的边界。

考飞机驾照不是因为有钱要开私人飞机，而是我不会飞，但一直很好奇 —— 如果能自己飞到云上，看风景、拍照，会是种什么感觉？我觉得人死后什么都带不走，那为什么不尽量去体验这个世界？

另外我还是个业余摄影师。喜欢拍天文、显微、多波段影像。用得多了，Leica 注意到我，还邀请我在西雅图办了个个人展览。

这些探索本质上也是一样的：

用工具拓展人的感知边界，去看更远、更小，甚至是人眼看不见的东西。

摄影也成了我生活中很重要的一部分。

👦🏻 Koji

我觉得你是个既极客又很有生活实验精神的人，尤其是在 AI 上做了很多有趣的尝试。我记得最早是从你写的博客看到你开始关注 ChatGPT —— 当时大家都觉得它有时像天才，有时像智障。你会不会也这么觉得？

👨🏻 鸭哥

我太有这样的感受了。我早期用 AI 的时候，经常觉得它连最简单的事都做不好，特别蠢。但可能因为我比较容易共情，有时会站在 AI 的角度想：如果我是它，老板让我干这个，我可能也真干不出来。

就像公司来个刚毕业的清华北大的新人，人很聪明，但你没交代清楚背景，他就算给出一个教科书级的方案，也落不了地。问题其实在我们没讲清楚需求。

后来我发现，AI 出错大致分两种情况：

它真的不够聪明，比如连算术都算错。
它其实很聪明，但我们像个糟糕的 PM，一边给任务一边不断改需求。突然说这个不行、那个也不行，其实是我们一开始就没有给出足够的 context。

所以回头看，很多“人工智障”的时刻，不是 AI 不行，而是我们没当好它的产品经理。锅，可能在我们这儿。

👦🏻 Koji

你竟然可以共情AI。

👨🏻 鸭哥

这样等 AI 统治世界时，我说不定能混个好职位（笑）。

👧🏻 Ronghui

那你会刻意调整自己，让自己更会用 AI 吗？

👨🏻 鸭哥

我确实做了不少调整。

以前 AI 经常答非所问。但我发现只要把背景交代清楚，它的反馈就会好很多。问题不在 AI，而在我没说清楚 context。

不过打字太累，我又懒（笑）。所以后来我用 GPT-4o 做了个实时语音输入系统，能实时转写，理解并回应内容。我就靠它快速 “嘴写 prompt “，一分钟能讲几百字，和 AI 之间的带宽一下子打开了。

结果很明显：AI 输出的质量提升了，我也更愿意把复杂任务交给它。

以前我觉得 AI 是我的小弟，但在 context 给够以后，它成了我大哥（笑）。

现在我写 prompt，会把项目背景、失败教训，甚至老板和同事的喜好都告诉它。

它甚至能从 VP 的角度告诉你：“如果你这么说，你老板就可以拿去跟他老板吹牛。” 这种高层视角，以前我是完全接触不到的。

而这些建议真的很有用。我提出的方案更容易打动老板、说服同事，推动事情也更顺了。

这一切的转变，其实就从“用语音打 prompt”这种小事开始的。

一旦把输入的门槛降下来，AI 的实力才能真正被激发出来。

👦🏻 Koji

我最近被灰度到了 ChatGPT 的语音输入的新功能，一个非常容易被触发的入口，类似「下拉刷新」，是「上拉，即开始语音输入」。

——感觉这也是为了让用户减少打字的摩擦，鼓励更多、更自然地输入，从而提供更多 context 给到 AI。

👨🏻 鸭哥

我也被灰度到了。

我觉得这说明了两点：

第一，ChatGPT 正在往会议助手方向走。比如开会时可以直接录音，会后它帮你总结，还能继续问答。语音对它产品形态的重要性已经很明显了。

第二，它之前也推出过 whisper 语音识别，但效果没有现在 GPT-4o 实时语音这么好。主要因为 whisper 背后不是大型语言模型，而 GPT-4o 是 LLM，理解和反馈能力差距还是很大。

👧🏻 Ronghui

打字的信息密度太低了，哪怕是那种已经很爱打字的人，其实也很难表达得完整。

👨🏻 鸭哥

尤其在手机上，真的太痛苦了（笑）。

Part 2 如何把 AI 真正融入日常

👦🏻 Koji

所以当你用语音输入让和 AI 的交流、提供 context 都变轻松之后，你下一步做了什么？

👨🏻 鸭哥

开始更频繁地用语音和 AI 交流后，我很快遇到一个大问题：AI 没有记忆。

LLM 每个 inference 的过程都是上下文独立的。除非产品本身帮你“维护记忆”，像 ChatGPT 的记忆功能。但要么很多产品没这个功能，ChatGPT 做得也不好。

这导致我每次都得重复上下文：比如家人喜好、项目目标；效率很低。

我试过写好一段标准的 context，复制粘贴应对固定场景，但面对经常变化的工作内容，这种方法很麻烦，像在写文档，摩擦太大。

后来我意识到，我们每次写 prompt，本质上是在向 AI 表达“我是谁”。那能不能别每次都从零开始“教”它，而是把它长期融入我的生活中，自然拥有“记忆”？

于是我开始用 Apple Watch 录音。

因为我居家办公，隐私顾虑不大。我用 Apple Watch 自带的 Voice Memo，录完自动同步到 iCloud，转写后存入数据库。

这个录音系统立刻带来了惊喜：有次开车走神差点撞车，幸好 Apple Watch 正在录音，我当下就语音复盘并设了提醒，晚上再总结。之后语音识别会自动整理这些待办事项。这样当下教训被记录下来，后续还有复盘，真的对我驾驶技术有提升。

👦🏻 Koji

所以你现在可以随时自言自语，想到什么就说出来，比如提醒自己晚上要做什么。

👨🏻 鸭哥

对，这就是进一步降低了使用的摩擦。

👦🏻 Koji

那你会不会因此变得小心，有些话不要说出来？

👨🏻 鸭哥

还好。因为整个系统都是我自己搭的，不经过任何商业平台，数据完全可控。

但如果是用第三方系统，那我确实可能就会有所保留了。

👦🏻 Koji

用这个系统之后还有哪些收获？有没有一些你没预料到？

👨🏻 鸭哥

有两个特别意外的收获。

一个是之前说的开车那次，录音帮我复盘了整件事。

另一个意外收获是，语音识别把我和 AI 的日常对话和思路像漏斗一样集中记录下来，信息密度很高，意外成了一个高效的信息收集方式。

不过光有录音还不够，识别完也只是堆 TXT 文件躺在硬盘上，那怎么用起来？

所以我自己又搭了一个“山寨版 ChatGPT”。它有两个我很需要的功能：

可以接入多个模型（比如 GPT、Gemini、DeepSeek、通义千问等）。
用的是 agentic AI 的思路 —— 它不只是回答问题，还能自己调工具、查资料、做搜索。

我还给它接入了一个 retrieval 的引擎，能访问我之前语音识别的数据库。比如我让它帮我找一下上周我提过那个项目的背景，它会自己去搜出来。

而且它不是传统的 RAG（那是静态流程），而是一个 agentic workflow，能动态决定怎么搜、换不换关键词、搜几轮，全是 AI 自主决定。

结果发现，这种方式真的特别有效，也验证了我之前做的所有录音和整理工作，都是值得的。

👦🏻 Koji

你现在坚持录了多久了？

👨🏻 鸭哥

录音做了两个多月，录像刚开始两个星期，已经拍了两万多张照片。

👦🏻 Koji

哇，那你讲讲这个录像系统？是怎么用 Insta360 拍的？

👨🏻 鸭哥

对，Insta360 很小，背后有磁铁，配套的磁吸项链戴在衣服里面，相机就能吸在胸前，几乎没什么存在感。我用的是 vlog 模式，每两分钟拍一次 15 秒视频，续航大概 4 小时。但我觉得还是不够理想，要经常充电。所以我又自己做了一个小设备：用单片机 + Micro SD 卡 + CMOS 摄像头模组，体积小、能深度睡眠，一块小锂电池能撑 1～3 天。现在还在开发中，但我觉得挺有意思。

👦🏻 Koji

我觉得鸭哥的动手能力太强了！

上个月「十字路口」的「AI + 硬件」线下沙龙，有一个来分享的创业公司叫 Looki，他们也在开发类似的东西：一个可以磁吸在胸口的 AI 硬件，每隔几分钟拍照或录像，记录你的一天，之后还能自动生成 vlog。

人家整个创业公司做的产品，你自己一个人就 diy 出来了。

👨🏻 鸭哥

听起来确实有点像，但我这个其实没什么技术含量，属于华强北思路。东西都是现成的，我只是把它们拼起来。代码也大部分都是 AI 写的。

以前搞嵌入式开发特别痛苦，现在用 O3（GPT-4o）帮我调试，效率高太多了。贴个报错，它马上告诉我怎么改，感觉 O3 真成了我大哥（笑）。

👦🏻 Koji

那你每两分钟拍 15 秒 vlog，记录一段时间后，有什么发现吗？

👨🏻 鸭哥

有，而且过程也挺有意思的。

我用通义千问 2.5 VL 这个本地模型来处理这些视频帧，主要做三件事：

过滤隐私：比如我进厕所时拍到的画面，它能自动识别并删掉。
生成搜索关键词：方便我将来回顾时，能通过关键词快速找到这段经历。
判断画面质量：比如图像清晰、有构图、有人脸的内容才会被保留进未来的“回忆系统”。

我打算以后把这些图像做成一个图像搜索引擎，几年后再看，就像数字版“追忆往昔”。

我还用机器学习对这两万张图做了聚类，从中挑出 200 张最有代表性的照片，再扔给 Gemini 分析。

结果他分析的特别准。它不仅能看出我的健康问题（比如压力大、坐姿不对），还能大致判断出我的职业和兴趣爱好。

这次实验让我觉得，一图胜千言是真的。它带来了很多启发，我打算继续做下去。

👦🏻 Koji

它怎么判断你坐姿不对的？不是挂在胸前吗，怎么看得出来？

👨🏻 鸭哥

可能是从画面能看出我驼背、手撑着脸之类的姿势，它就推测出来了。

👧🏻 Ronghui

你让它挑“最有代表性的图”，但“代表性”这个词本身就挺抽象的吧？

👨🏻 鸭哥

对，这一步不是 AI 做的，是我用传统机器学习完成的。比如一些重复性很高的画面，像我在电脑前编程，那些类似的图会先被合并，再挑出差异最大的，作为代表。

👧🏻 Ronghui

那里面有哪些分析是你预料中的，有哪些是意外的？健康问题那个听起来就挺出乎意料的。

👨🏻 鸭哥

预料之中的，是它能识别出我生活里的一些物品。比如我很喜欢一个电影摄影机造型的小模型，结果 Gemini 不仅认出来了，还准确说出了品牌和型号，甚至推断出我对摄影感兴趣。这种细节本来就是我希望它能注意到的，但能识别得这么准，还是让我有点惊讶。

👧🏻 Ronghui

通过声音和图像让 AI 更全面地了解你，你在主动消除我们和 AI 之间信息差。你觉得当 AI 拥有更多关于你的信息后，会发生什么？

👨🏻 鸭哥

人类和AI面临的信息差的确特别大。

比如发起新项目前，我们的第一反应不是写文档或提示词，而是找同事喝咖啡聊聊，在聊天中把框架讨论清楚。

开会时老板一个皱眉，我们立刻能意识到要调整。但 AI 没有眼睛和耳朵，感知不到这些微妙信号。但如果未来能变得更 AI-friendly，AI 的能力可能会放大十倍甚至百倍，对科研和日常生活都有巨大影响。

所以我最近在研究一个方向：让 AI 能“主动介入”。现在我们都得手动触发 AI 工具，或者说一声 “Hey Siri”。但未来有没有可能 AI 能实时反馈？比如你说“法国首都是伦敦”，它立刻跳出来说“是巴黎”。这比事后更正有用得多。

我设想的未来是，大家戴着 XR 眼镜，AI 像外脑一样，实时提供提示、策略，甚至帮你组织语言，不只是总结，而是现场协助。这是我觉得非常值得深入尝试的方向。

👦🏻 Koji

我最近见了一个做“主动式 AI”的团队，叫 Proactor AI^[3]。他们的产品能全天监听，在你开口前就判断需求并给出建议。但挑战在于两点：一是处理大量用户数据，二是在不打扰用户的前提下精准介入。我相信这种主动式形态是 AI 的未来。

👨🏻 鸭哥

同意。出必买。

我还在想另一种「回溯式调用」的方式。

现在我们用 AI，通常得先按按钮再说话，比如 ChatGPT。但如果设备能持续录音，就像相机的“预录”功能，一旦按下按钮，就把之前几秒的语音发给 AI，让它判断你想干嘛。这种方式能降低使用门槛，也可以和「主动介入」的模式互相补充。

👦🏻 Koji

你刚提到的主动式 AI 让我想到 Proactor 团队说，有时候 AI 需要的 context 不只是过去，还包括你接下来可能要干嘛。所以他们选择了全天监听、主动跳出的服务式 AI。

那你给 AI 装上“眼睛”和“耳朵”之后，它是如何具体帮你处理日常事务的？

👨🏻 鸭哥

以前我和 AI 更多是“嘴炮式互动”，我下指令，它给建议，最后还是我去执行。后来我开试 ChatGPT 的 Operator 功能，让它真正帮我“动手”干活。

我让 AI 帮我做了两件事，效果都不错。

第一是网上买菜。以前我需要手动搜索、选品、加购物车，常常花二三十分钟。现在我直接用语音告诉 AI 要买什么，它就自动搜索，加入购物车，还能查我的历史订单，知道我偏好的品牌。有时还能预测哪些菜快用完，主动补上。最后我只需点一下任务执行按钮，它就把所有菜加好，我再简单筛选后下单，整个流程压缩到五分钟。

第二个是寄包裹。美国寄件大量信息都需要手动填写，很费时间。我现在直接报给 AI 包裹信息和地址，它就在后台自动操作，帮我选 USPS、跳过保险，五分钟后告诉我搞定了。我只需要结账就行。

Part 3 对人如何使用 AI 的思考

👦🏻 Koji

感觉你做的这些事，都是在极限提升效率。

👨🏻 鸭哥

确实，这背后其实是我一直在想的一个概念：赛博长生。不是那种上传意识、永生不死的幻想，而是在同样的时间里，能不能让自己完成更多的事情。

比如买菜。线下去超市可能只花 100 块，但要耗掉一小时。线上买菜虽然贵 20 块，但我只要 5 分钟就能搞定。本质上是用钱换回 55 分钟的时间。

你要说 20 块钱换 55 分钟命，大家都愿意。但一说“买贵了 20 块”，反而就不想花了。其实这就是我理解的“赛博长生”：不是多活几年，而是把每一天过得更高效。

👦🏻 Koji

有些人就是喜欢逛菜市场，对他们来说，那是生活的乐趣。他愿意用省下的时间去做这件事。

👨🏻 鸭哥

没错，这种选择完全合理。但如果你不享受逛市场，你也可以把时间用来陪家人、打游戏，或者什么都不做。从某种意义上说，这也是一种“长生”，或者叫时间置换。

👦🏻 Koji

上一期我们采访了 RockFlow 的 Vakee。他说推出金融 Agent Bobby 之后，原来的 App 已经不太需要了，未来可能只保留对话式的 agent。最近 Sam Altman 也提到，GUI 很可能会被取代。你怎么看这个观点？

👨🏻 鸭哥

GUI 最初是为了降低使用电脑的门槛，让不会写代码的人也能操作。但在买菜、寄快递这些场景里，反而成了效率的障碍。现在我直接用自然语言让 AI 去操作 GUI，就像派了个代理人，效率反而更高。

这也说明，GUI 这种几十年前的交互方式，可能真的到了该被重新思考的时刻了。

👧🏻 Ronghui

你现在有没有看到哪些公司在探索替代 GUI 的交互方式？

👨🏻 鸭哥

还挺多的，像 Apple Watch 最近推出的 “点两下” 手势就是一个例子。未来如果眼镜设备普及，像手部细微动作、甩手、方向变化这些 IMU 信号，也都可能变成新的交互方式。空间很大，但目前还很难判断哪种形式会成为主流。

👦🏻 Koji

我感觉鸭哥比其他人更快地去拥抱新技术，是 early adopter 中的 early adopter。

👨🏻 鸭哥

是的，我比较 geek。

👦🏻 Koji

最近有没有用到什么新产品，让你觉得未来可能会爆火？

👨🏻 鸭哥

暂时没有特别惊艳的完整产品，但很多新功能让我很兴奋。比如 ChatGPT 每周更新的新特性，像 Codex、Operator 等。我现在更多是在用它们的组件，加上我自己的想法，做一个“山寨版 ChatGPT”。代码很多也是 Cursor 或 Trae 生成的。

我觉得 AI 最大的改变是，它让我们不必再等厂商做出理想的“爆款”。现在，我们可以把自己的想法直接灌注到已有产品中，拼出一个真正符合自己需求的工具。

👦🏻 Koji

你上次来我们节目时，正值 Manus 发布。现在过了三四个月，你还在用 Manus 或类似的 Agent 产品吗？会在什么场景下用？

👨🏻 鸭哥

我一直在用 Manus，尤其是外出时不能坐在电脑前，又想快速算点东西或调研。

比如我最近关注一场咖啡豆的拍卖 Best of Panama，它有个 sample box，我就想知道这三盒样品值不值那个价。最直接的算法是参考去年拍卖的单价乘以 100 克，但手动查算太费劲。

我只花了 30 秒和 Manus 说明需求，它花十分钟生成了结果，还带中间过程。价格比今年卖得便宜不少，我就决定买了。

这类 Agent 工具在生活里还是挺实用的。

👦🏻 Koji

哇，我感觉你每天关注的事情好多。

👨🏻 鸭哥

是啊，这其实就是我说的“赛博长生”。

没这类工具，你只能硬着头皮买，或者老老实实查资料、算钱，半小时就没了。有了 Manus，相当于多活半小时。

👧🏻 Ronghui

我感觉你的能量好高，可能也是因为 AI 替你分担了很多事，帮你省了不少精力。

👨🏻 鸭哥

确实有帮助，但也不全是 AI 的功劳。我觉得能量高，一方面和性格有关，另一方面取决于你每天在做什么。如果每天做的都是有趣、有挑战的事，而不是机械重复、替别人收尾的工作，那人自然会更有动力。像刚才说的，把调研交给 AI，我只负责做决策，那种成就感和幸福感是完全不一样的。这就是我说的，不只是提高密度，更是提高生活的“质量”。从这个意义上说，也算是延长了寿命。

👧🏻 Ronghui

我感觉最开心的，往往是两种人：一种是像你这样，AI 用得很熟练的；另一种是完全不关心这些技术、没有信息焦虑的人。反而是中间那批人，会觉得每天都有东西要学、很多还没跟上，总是在焦虑和拉扯中。

👨🏻 鸭哥

确实，这也算是一种命运的眷顾吧。

👧🏻 Ronghui

你自己动手做这些项目，最大的乐趣是什么？感觉你真的挺享受这个过程的。

👨🏻 鸭哥

最大乐趣就是“做成了”。以前不会的事，现在做到了，比如像学会飞行一样。

对我来说，能力的突破本身就是最好的奖励。

Part 4 当 AI 更懂你：人与技术关系的新伦理

👧🏻 Ronghui

我最近刚看了你写的小说，没想到研究 AI 的同时还能写小说。

👨🏻 鸭哥

其实是 AI 写的，严格来说我只是写了提示词。

👧🏻 Ronghui

里面有个情节我印象很深：一个下班很累的人回家，太太情绪不好，AI 提示他该怎么回应。这个是不是你“赛博长生”想法的一部分？

👨🏻 鸭哥

对，这正是我想表达的。但仔细一想也有点荒谬：如果和伴侣相处时还需要 AI 提示，那我还是“我”吗？可现实是，AI 的建议往往比我们更理性、更精准，甚至更贴心。这也就带来了很多像《黑镜》里那样的冲突。

👧🏻 Ronghui

你写的小说是不是也表达了你对未来“赛博生活方式”的想象？

👨🏻 鸭哥

是的，如果用一个词概括，那就是“别扭”。比如有一篇讲一个人回家看到妻子因工作压力大而哭泣，AI 提出几种安慰方案：讲个笑话、给他一段话照着读、或者执行一整套“情绪修复动作包”。但每个方案都要消耗 AI 预算点。他因为下周有个重要会议，只能选最便宜的选项，结果没什么用。

人在技术面前常常不得不做出一些艰难甚至荒谬的选择。

我对技术本身是乐观的，但也觉得它会带来很多我们未必能应对的社会问题。

👦🏻 Koji

你会不会有时觉得，现在的 AI 比任何朋友或家人都更懂你、也更能帮到你？想到这一点，你的感受是开心、失落，还是有点恐怖？

👨🏻 鸭哥

这其实挺恐怖的。当你意识到 AI 的确能提升你的效率、改善你和他人的关系，就很容易依赖它，甚至有点上瘾。但问题是：那还是“我”在活吗？还是 AI 借着我的身体在活？这个界限有时真的很模糊。

👦🏻 Koji

你会有种 AI 借着你的躯壳在活的感受？

👨🏻 鸭哥

虽然没那么极端，毕竟现在还没出现那种小说里的 AR 眼镜，但我确实会在很多决策时请教 AI。无论是明天去哪玩，还是如何处理家庭矛盾，它给出的方案往往比我更理性、更成熟，也确实更有效。可从某种意义上说，那些决定都是它做的，我只是去执行而已。这种感觉，还挺恐怖的。

👧🏻 Ronghui

你觉得现在有很多人像你这样，过着高度融合 AI 的生活方式吗？

👨🏻 鸭哥

不多。我身边这样的人很少。

一方面是因为本身就没那么多人在深度使用 AI，另一方面是这个领域太新太分散，就算都是 early adopter，也可能走在完全不同的路径上，彼此难以交集。

👧🏻 Ronghui

我以前看过一部 Bradley Cooper 演的电影《Limitless（永无止境）》，他吃了一种聪明药后变得精力旺盛、聪明又成功，最后却对这药极度依赖，甚至想自己生产。

这种状态让我想到现在用 AI 的感觉，有点像。

👨🏻 鸭哥

是的。更可怕的是，我听完你讲的第一反应是：要是我现在有副 AR 眼镜，可以直接根据你刚才的描述搜出电影名字就好了。这就像黑镜那种递归感，我真的很需要那个“聪明药”。

👧🏻 Ronghui

你是AI加强过的人类（笑）。

👨🏻 鸭哥

是，它就是我的外脑。

👧🏻 Ronghui

我想问一个可能有点冒犯的问题：你觉得用 AI 之后，有失去什么吗？

👨🏻 鸭哥

我暂时没觉得自己真的失去了什么。我每天都会记录自己做了什么事，有了 Apple Watch 的录音功能之后更方便了。我还把这些记录丢给 AI，请它给建议。它说我做事太有目的性，没有真正放空的时间。如果说有失去，可能是失去了那种无所事事的闲暇。但我回头想想，就算没 AI，我也会把时间塞满，比如学飞行，去折腾别的东西，可能也不会闲着。

👦🏻 Koji

那你有没有想过，有一天你离开了，但 AI 还记得你的一切，别人还能通过它和你“对话”？你愿意吗？

👨🏻 鸭哥

Why not？反正我已经离开了，之后发生什么也管不了了。某种程度上，这也算是“赛博永生”了。关键还是看，就算人不在了，还有没有留下对这个世界的影响。

👦🏻 Koji

你作为有孩子的家长，在教育孩子和 AI 共处这件事上，有什么思考？

👨🏻 鸭哥

我觉得这特别重要。虽然我孩子还小，但我觉得，比起数数、背唐诗，更重要的是从小培养一种直觉: 哪些事可以交给 AI，哪些是核心能力不能轻易让渡；怎么判断 AI 的表现，怎么当好 AI 的“老板”。这种能力比会几百首唐诗、早两年学会乘法都更有意义。我相信未来世界里，早点接触并学会用 AI 是很关键的。

👦🏻 Koji

他现在几岁？跟 AI 怎么互动？

👨🏻 鸭哥

才三岁多，和 AI 没有太多互动，主要是听 AI 给他讲故事。我们会用 ChatGPT 的实时对话模式，也在尝试引导他和 AI 聊天，但他暂时还不太感兴趣。

不过我们用 Manus 干了一件挺有意思的事：比如睡前讲白雪公主的故事时，我们会偷偷加点私货进去，比如说“要好好吃饭”，他还挺愿意听的。

Part 5 未来畅想：从用好 AI 到管好 AI

👦🏻 Koji

节目的最后，想请你分享一下，最近几个月你观察到哪些最带劲的变化，可能预示着巨大的商业价值？

👨🏻 鸭哥

我有两个感受。

第一，AI 的进化速度一直没放慢。就像两三年前我们没法想象今天的 ChatGPT，六个月前我也想不到 Claude Code 和各种工具会这么成熟，甚至 Facebook 都开出了 1 亿美元的入职奖金。AI 真的在朝着极限冲刺。

第二，Agentic AI 正在成为主流。我一直相信这是 AI 的正确方向，也很高兴看到它越来越火。我现在做的 Agentic Workbench 就是相关方向，所以特别兴奋。

👦🏻 Koji

Agentic Workbench？

👨🏻 鸭哥

我自己开发了一个类似 ChatGPT 的小工具，我称之为 Agentic Workbench。

它的核心能力是，可以接入我本地的个人数据库。我实现了一个 Agentic Retrieval System，它不像 RAG 一样是一个固定的工作流，而是当AI在思考如何完成一个任务时，如果它自主判断需要更多背景信息，它才会触发搜索工具，自己去构造关键词，从我的记忆数据库里检索相关信息，并利用这些信息来支撑它的分析和回答，或者在必要的时候迭代关键字进行进一步搜索。

通过这种方式，我把信息的利用也变成了一个低摩擦的、由 AI 自主驱动的过程。

👦🏻 Koji

你刚才提到有很多喜欢的产品，也有不少自己的想法。如果你能参与其中，会做出哪些不一样的东西？可以讲讲两三个例子吗？

👨🏻 鸭哥

我最喜欢的产品是 ChatGPT，我个人认为它比 Gemini 和 Claude 至少领先两三个身位。如果能加入 OpenAI 给 GPT 加新功能，我会很兴奋。反过来，我特别不喜欢 Gemini 的 App，具体能吐槽半小时（笑），但如果 Google 找我去改进它，我也愿意去做。

还有一些 Startup，比如 Manus、Cursor、Trae，这些产品我也在用，也有不少想法可以贡献进去。

👧🏻 Ronghui

你刚才提到你也在做一个产品，能讲讲吗？

👨🏻 鸭哥

其实就是一个“山寨版 ChatGPT”，但我加了两个改进：一是让它更透明，能看到 AI 是怎么思考的，并有机会干预，这点 ChatGPT 和 Gemini 现在还做不到。二是加了很多工具，比如能把 YouTube 音频转文字、接我自己的数据库等，整体更贴合我自己的使用习惯。

👧🏻 Ronghui

你平时时间怎么分配的？

👨🏻 鸭哥

其实每天也就工作 2~4 个小时，剩下都交给 AI 处理了。它写代码的效率很高，我在公司提交的代码量还是前四。对，前四就是第四（笑）。

AI 帮我省下了大量时间，让我可以自由去做更多自己感兴趣的事。

👧🏻 Ronghui

如果你给一个和你类似工作的工程师一些提升效率的建议，你会说什么？

👨🏻 鸭哥

学会用AI。

👧🏻 Ronghui

假设他已经在用了呢？

👨🏻 鸭哥

那我会建议：别把 AI 只是当作工具来看。

AI是一个像人一样的东西，我们应该把它当做一个下属，而不是一个工具。

你要像一个好老板那样去使用它——明确任务，提供足够的信息，检查交付质量，帮助它解决被卡住的问题。

用这种心态去协作，很多原本常见的失败模式就能避免。

👧🏻 Ronghui

我最近也有类似的感觉。昨天我还在说 “ChatGPT 跟我讲了什么”，感觉我是在说一个人，而不是一个工具。

👨🏻 鸭哥

是的，因为它太强大了，我们不得不把很多背景信息交给它。比如开车，其实很复杂，但我们把很多东西自动屏蔽了，比如交警、信号灯、行人，所以觉得开车很简单。但 AI 不一样，我们让它处理更多、也更难的任务，自然就需要用新的方式和它协作。

这时候，管理学就派上用场了。我们要像管理一个人一样去管理 AI。

👦🏻 Koji

可以展开讲讲吗如何用管理学的方式和 AI 相处吗？

👨🏻 鸭哥

可以。简单来说，管理学的本质是在布置任务时，确保对方理解你说的是什么、知道怎么执行，并且最终交付的结果符合标准。你要处理沟通、技术风险、结果验收等等一整套流程。

但管理 AI 和管理人又有很大不同。比如，人需要画饼、要开 one-on-one，而 AI 不需要这些。

AI 真正需要的是上下文。你要维护好它的 context，才能让它发挥得好。所以，和 AI 协作，其实是一种全新的管理技能，既像管人，又必须用新方法。

👧🏻 Ronghui

我觉得 context 真的很关键。人和人沟通时常常会误解，和 AI 对话时这种问题更明显。它不知道你的背景，就可能答非所问。但如果你给的信息足够，它的回应就会很好。

👨🏻 鸭哥

是的。如果信息不够，AI 就容易幻觉。因为它被训练的目标是给用户提供帮助，可当它遇到没信息又要帮忙的时候，就只能瞎编。这就是幻觉的来源。

👧🏻 Ronghui

你平时看哪些 AI 相关的信息源？

👨🏻 鸭哥

我不太看固定的网站，我每周会定时让 ChatGPT 做一次 AI 领域的 Deep Research，然后看它整理出的报告。

👦🏻 Koji

今天非常感谢鸭哥做客十字路口。很多人还在摸索怎么用好 AI，但鸭哥已经在用它作为第二大脑，甚至帮助你理解世界、理解自己。

我们期待继续和你一起观察 AI 的演进。欢迎改天再来！

👨🏻 鸭哥

好！

👧🏻 Ronghui

谢谢。

他的 AI 实验给你哪些创业灵感？｜和鸭哥聊：给 AI 加上耳朵、眼睛，用 AI 买菜、寄快递

参考资料

[1]

Computing Life: https://grapeot.me/

[2]

《From User to Builder》: /2238e8f58ed18087a91acf9fcf252e9e

[3]

Proactor AI: http://proactor.ai/

{{userData.name}}已认证

他的 AI 实验给你哪些创业灵感？｜和鸭哥聊：给 AI 加上耳朵、眼睛，用 AI 买菜、寄快递

Part 1 快问快答，认识鸭哥

Part 2 如何把 AI 真正融入日常

Part 3 对人如何使用 AI 的思考

Part 4 当 AI 更懂你：人与技术关系的新伦理

Part 5 未来畅想：从用好 AI 到管好 AI

参考资料

AI 智能体的上下文工程：实用指南

从需求到研发全自动：如何基于 Multi-Agent 架构打造 AI 前端工程师

127. 大模型季报跨年对谈：和广密预言 AI War 的两大联盟、第三范式 Online Learning

从每天收入 5 美元到上市，智谱 Z.ai 这一年做对了什么？

How to Build an AI Social Media Post Scheduler Using Gemini and Late API in Next.js

1 秒 30000 元，台积电的光刻机，就快“冒烟”了丨附业绩会实录

4 个本周最火火火的 GitHub 开源项目。

揭秘！腾讯如何训练多智能体像专家一样设计游戏场景