他的 AI 实验给你哪些创业灵感?|和鸭哥聊:给 AI 加上耳朵、眼睛,用 AI 买菜、寄快递

文章记录了一位资深极客鸭哥在 AI 领域的深度实验与思考。他通过自制语音输入法和全天候音视频记录设备(Apple Watch、Insta360),为 AI 提供了丰富且实时的个人上下文信息,解决了传统 AI 沟通信息不对称和缺乏记忆的问题。在此基础上,他构建了个人 Agentic AI 系统,成功让 AI 代劳买菜、寄快递等日常琐事,大幅提升效率,践行“赛博长生”理念。文章还深入探讨了 GUI 可能被取代的趋势、AI 主动介入的可能性,以及如何将 AI 视为“下属”进行管理,强调提供充足上下文的重要性,并对 AI 伦理和未来人机关系进行了富有启发性的思考。




未来属于最会用 AI 的人。

他的 AI 实验给你哪些创业灵感?|和鸭哥聊:给 AI 加上耳朵、眼睛,用 AI 买菜、寄快递

👦🏻 播客采访:Koji、Ronghui

🥷 整理编辑:Bella

🧑‍🎨 排版:NCon

loading

在科技行业里,有一些富有好奇心、动手能力又很强的极客,他们会在一些产品刚出现的时候就迅速上手,不仅使用,有时还会自己动手组装、魔改,把原本的产品玩出新的花样。


本期我们邀请的嘉宾鸭哥就是这样一位极客,最近我们知道,鸭哥在做一些 AI 实验,比如他自己做了一个语音输入法,用 Apple Watch 全天 24 小时录制自己说的话,这给 AI 更好地了解他提供了丰富的语料信息。


此外,他还把 Insta360 挂在胸前,拍下全天候的视频和照片 ——我们在访谈中说,鸭哥的这些 AI 实验,就像是给 AI 加了耳朵和眼睛,很好的解决了和 AI 沟通信息极度不对称的问题。不仅如此,他还成功地让 AI 帮他买菜、寄快递,等等。


loading


在这期播客里,鸭哥跟我们分享了他的这些实验,以及他从中得到的收获。以及这样「极致的提高了效率」之后,他对人如何使用 AI 的思考。


我们邀请鸭哥来做客十字路口,因为我们相信他作为早期使用者(Early Adopter)的体验和折腾出的各种项目实验,能为许多 AI 创业者提供未来产品的灵感。


此外,鸭哥也是《Manus 爆火的背后:我们用 20 个问题一起搞懂 AI Agent》那一期的嘉宾,他的个人 Blog 「Computing Life[1]」 值得对 AI 感兴趣的朋友们读一读。


推荐:鸭哥的课程《From User to Builder》[2],帮助你从AI工具使用者进化为具备实战能力的Builder,用AI打造实用项目、提升工作效率、增强职场竞争力。


小宇宙收听:

loading


微信直接收听:



本周我们也尝试录制并剪辑了视频播客,可以到 Koji 的小红书/B站/视频号观看(本文发布一周后,上线视频版本)。


Part 1 快问快答,认识鸭哥


👦🏻 Koji

请问鸭哥的年龄?


👨🏻 鸭哥

一上来就问这种让人伤感的问题(笑)。我已经是个老男人了,已经过了要被优化的界限。


👦🏻 Koji

毕业院校?


👨🏻 鸭哥

本科在中国科大。博士在 Columbia University


👦🏻 Koji

现在的工作身份?


👨🏻 鸭哥

在 Samsara 做 Applied Scientist,研究行车记录仪里的计算机视觉。业余也在持续探索 agent AI。


👦🏻 Koji 你的 MBTI 和星座是什么?


👨🏻 鸭哥

MBTI 忘了,只记得是很少见的类型。星座是天蝎座。


👦🏻 Koji

很多人是通过你写的技术文章认识你的。可以聊聊在 AI 和代码之外的你,是什么样的生活状态?


👨🏻 鸭哥

这个问题挺开放的,我确实有一些不太一样的经历。比如 2008 年我当过北京奥运会的火炬手,后来考了挖掘机、飞机、还有船的驾照。

这些看起来很酷的事情,其实背后都有一个动机:我想亲身体验人类可以做到的边界。

考飞机驾照不是因为有钱要开私人飞机,而是我不会飞,但一直很好奇 —— 如果能自己飞到云上,看风景、拍照,会是种什么感觉?我觉得人死后什么都带不走,那为什么不尽量去体验这个世界?

另外我还是个业余摄影师。喜欢拍天文、显微、多波段影像。用得多了,Leica 注意到我,还邀请我在西雅图办了个个人展览。

这些探索本质上也是一样的:

用工具拓展人的感知边界,去看更远、更小,甚至是人眼看不见的东西。

摄影也成了我生活中很重要的一部分。


👦🏻 Koji

我觉得你是个既极客又很有生活实验精神的人,尤其是在 AI 上做了很多有趣的尝试。我记得最早是从你写的博客看到你开始关注 ChatGPT —— 当时大家都觉得它有时像天才,有时像智障。你会不会也这么觉得?


👨🏻 鸭哥

我太有这样的感受了。我早期用 AI 的时候,经常觉得它连最简单的事都做不好,特别蠢。但可能因为我比较容易共情,有时会站在 AI 的角度想:如果我是它,老板让我干这个,我可能也真干不出来。

就像公司来个刚毕业的清华北大的新人,人很聪明,但你没交代清楚背景,他就算给出一个教科书级的方案,也落不了地。问题其实在我们没讲清楚需求。

后来我发现,AI 出错大致分两种情况:

  1. 它真的不够聪明,比如连算术都算错。

  2. 它其实很聪明,但我们像个糟糕的 PM,一边给任务一边不断改需求。突然说这个不行、那个也不行,其实是我们一开始就没有给出足够的 context

所以回头看,很多“人工智障”的时刻,不是 AI 不行,而是我们没当好它的产品经理。锅,可能在我们这儿。


loading


👦🏻 Koji

你竟然可以共情AI。


👨🏻 鸭哥

这样等 AI 统治世界时,我说不定能混个好职位(笑)。


👧🏻 Ronghui

那你会刻意调整自己,让自己更会用 AI 吗?


👨🏻 鸭哥

我确实做了不少调整。

以前 AI 经常答非所问。但我发现只要把背景交代清楚,它的反馈就会好很多。问题不在 AI,而在我没说清楚 context。

不过打字太累,我又懒(笑)。所以后来我用 GPT-4o 做了个实时语音输入系统,能实时转写,理解并回应内容。我就靠它快速 “嘴写 prompt “,一分钟能讲几百字,和 AI 之间的带宽一下子打开了。

结果很明显:AI 输出的质量提升了,我也更愿意把复杂任务交给它。

以前我觉得 AI 是我的小弟,但在 context 给够以后,它成了我大哥(笑)。

现在我写 prompt,会把项目背景、失败教训,甚至老板和同事的喜好都告诉它。

它甚至能从 VP 的角度告诉你:“如果你这么说,你老板就可以拿去跟他老板吹牛。” 这种高层视角,以前我是完全接触不到的。

而这些建议真的很有用。我提出的方案更容易打动老板、说服同事,推动事情也更顺了。

这一切的转变,其实就从“用语音打 prompt”这种小事开始的。

一旦把输入的门槛降下来,AI 的实力才能真正被激发出来。


👦🏻 Koji

我最近被灰度到了 ChatGPT 的语音输入的新功能,一个非常容易被触发的入口,类似「下拉刷新」,是「上拉,即开始语音输入」。

——感觉这也是为了让用户减少打字的摩擦,鼓励更多、更自然地输入,从而提供更多 context 给到 AI。


👨🏻 鸭哥

我也被灰度到了。

我觉得这说明了两点:

第一,ChatGPT 正在往会议助手方向走。比如开会时可以直接录音,会后它帮你总结,还能继续问答。语音对它产品形态的重要性已经很明显了。

第二,它之前也推出过 whisper 语音识别,但效果没有现在 GPT-4o 实时语音这么好。主要因为 whisper 背后不是大型语言模型,而 GPT-4o 是 LLM,理解和反馈能力差距还是很大。


👧🏻 Ronghui

打字的信息密度太低了,哪怕是那种已经很爱打字的人,其实也很难表达得完整。


👨🏻 鸭哥

尤其在手机上,真的太痛苦了(笑)。


Part 2 如何把 AI 真正融入日常


👦🏻 Koji 

所以当你用语音输入让和 AI 的交流、提供 context 都变轻松之后,你下一步做了什么?


👨🏻 鸭哥

开始更频繁地用语音和 AI 交流后,我很快遇到一个大问题:AI 没有记忆。

LLM 每个 inference 的过程都是上下文独立的。除非产品本身帮你“维护记忆”,像 ChatGPT 的记忆功能。但要么很多产品没这个功能,ChatGPT 做得也不好。

这导致我每次都得重复上下文:比如家人喜好、项目目标;效率很低。

我试过写好一段标准的 context,复制粘贴应对固定场景,但面对经常变化的工作内容,这种方法很麻烦,像在写文档,摩擦太大。

后来我意识到,我们每次写 prompt,本质上是在向 AI 表达“我是谁”。那能不能别每次都从零开始“教”它,而是把它长期融入我的生活中,自然拥有“记忆”?

于是我开始用 Apple Watch 录音。

因为我居家办公,隐私顾虑不大。我用 Apple Watch 自带的 Voice Memo,录完自动同步到 iCloud,转写后存入数据库。

这个录音系统立刻带来了惊喜:有次开车走神差点撞车,幸好 Apple Watch 正在录音,我当下就语音复盘并设了提醒,晚上再总结。之后语音识别会自动整理这些待办事项。这样当下教训被记录下来,后续还有复盘,真的对我驾驶技术有提升。


loading


👦🏻 Koji

所以你现在可以随时自言自语,想到什么就说出来,比如提醒自己晚上要做什么。


👨🏻 鸭哥

对,这就是进一步降低了使用的摩擦。


👦🏻 Koji

那你会不会因此变得小心,有些话不要说出来?


👨🏻 鸭哥

还好。因为整个系统都是我自己搭的,不经过任何商业平台,数据完全可控。

但如果是用第三方系统,那我确实可能就会有所保留了。


👦🏻 Koji

用这个系统之后还有哪些收获?有没有一些你没预料到?


👨🏻 鸭哥

有两个特别意外的收获。

一个是之前说的开车那次,录音帮我复盘了整件事。

另一个意外收获是,语音识别把我和 AI 的日常对话和思路像漏斗一样集中记录下来,信息密度很高,意外成了一个高效的信息收集方式。

不过光有录音还不够,识别完也只是堆 TXT 文件躺在硬盘上,那怎么用起来?

所以我自己又搭了一个“山寨版 ChatGPT”。它有两个我很需要的功能:

  1. 可以接入多个模型(比如 GPT、Gemini、DeepSeek、通义千问等)。

  2. 用的是 agentic AI 的思路 —— 它不只是回答问题,还能自己调工具、查资料、做搜索。

我还给它接入了一个 retrieval 的引擎,能访问我之前语音识别的数据库。比如我让它帮我找一下上周我提过那个项目的背景,它会自己去搜出来。

而且它不是传统的 RAG(那是静态流程),而是一个 agentic workflow,能动态决定怎么搜、换不换关键词、搜几轮,全是 AI 自主决定。

结果发现,这种方式真的特别有效,也验证了我之前做的所有录音和整理工作,都是值得的。


👦🏻 Koji

你现在坚持录了多久了?


👨🏻 鸭哥

录音做了两个多月,录像刚开始两个星期,已经拍了两万多张照片。


👦🏻 Koji

哇,那你讲讲这个录像系统?是怎么用 Insta360 拍的?


👨🏻 鸭哥

对,Insta360 很小,背后有磁铁,配套的磁吸项链戴在衣服里面,相机就能吸在胸前,几乎没什么存在感。我用的是 vlog 模式,每两分钟拍一次 15 秒视频,续航大概 4 小时。但我觉得还是不够理想,要经常充电。所以我又自己做了一个小设备:用单片机 + Micro SD 卡 + CMOS 摄像头模组,体积小、能深度睡眠,一块小锂电池能撑 1~3 天。现在还在开发中,但我觉得挺有意思。


loading



👦🏻 Koji

我觉得鸭哥的动手能力太强了!

上个月「十字路口」的「AI + 硬件」线下沙龙,有一个来分享的创业公司叫 Looki,他们也在开发类似的东西:一个可以磁吸在胸口的 AI 硬件,每隔几分钟拍照或录像,记录你的一天,之后还能自动生成 vlog。

人家整个创业公司做的产品,你自己一个人就 diy 出来了。


👨🏻 鸭哥

听起来确实有点像,但我这个其实没什么技术含量,属于华强北思路。东西都是现成的,我只是把它们拼起来。代码也大部分都是 AI 写的。

以前搞嵌入式开发特别痛苦,现在用 O3(GPT-4o)帮我调试,效率高太多了。贴个报错,它马上告诉我怎么改,感觉 O3 真成了我大哥(笑)。


👦🏻 Koji

那你每两分钟拍 15 秒 vlog,记录一段时间后,有什么发现吗?


👨🏻 鸭哥

有,而且过程也挺有意思的。

我用通义千问 2.5 VL 这个本地模型来处理这些视频帧,主要做三件事:

  1. 过滤隐私:比如我进厕所时拍到的画面,它能自动识别并删掉。

  2. 生成搜索关键词:方便我将来回顾时,能通过关键词快速找到这段经历。

  3. 判断画面质量:比如图像清晰、有构图、有人脸的内容才会被保留进未来的“回忆系统”。

我打算以后把这些图像做成一个图像搜索引擎,几年后再看,就像数字版“追忆往昔”。

我还用机器学习对这两万张图做了聚类,从中挑出 200 张最有代表性的照片,再扔给 Gemini 分析。

结果他分析的特别准。它不仅能看出我的健康问题(比如压力大、坐姿不对),还能大致判断出我的职业和兴趣爱好。

这次实验让我觉得,一图胜千言是真的。它带来了很多启发,我打算继续做下去。


loading


👦🏻 Koji   

它怎么判断你坐姿不对的?不是挂在胸前吗,怎么看得出来?


👨🏻 鸭哥

可能是从画面能看出我驼背、手撑着脸之类的姿势,它就推测出来了。


👧🏻 Ronghui   

你让它挑“最有代表性的图”,但“代表性”这个词本身就挺抽象的吧?


👨🏻 鸭哥

对,这一步不是 AI 做的,是我用传统机器学习完成的。比如一些重复性很高的画面,像我在电脑前编程,那些类似的图会先被合并,再挑出差异最大的,作为代表。


👧🏻 Ronghui

那里面有哪些分析是你预料中的,有哪些是意外的?健康问题那个听起来就挺出乎意料的。


👨🏻 鸭哥

预料之中的,是它能识别出我生活里的一些物品。比如我很喜欢一个电影摄影机造型的小模型,结果 Gemini 不仅认出来了,还准确说出了品牌和型号,甚至推断出我对摄影感兴趣。这种细节本来就是我希望它能注意到的,但能识别得这么准,还是让我有点惊讶。


👧🏻 Ronghui

通过声音和图像让 AI 更全面地了解你,你在主动消除我们和 AI 之间信息差。你觉得当 AI 拥有更多关于你的信息后,会发生什么?


👨🏻 鸭哥

人类和AI面临的信息差的确特别大。

比如发起新项目前,我们的第一反应不是写文档或提示词,而是找同事喝咖啡聊聊,在聊天中把框架讨论清楚。

开会时老板一个皱眉,我们立刻能意识到要调整。但 AI 没有眼睛和耳朵,感知不到这些微妙信号。但如果未来能变得更 AI-friendly,AI 的能力可能会放大十倍甚至百倍,对科研和日常生活都有巨大影响。

所以我最近在研究一个方向:让 AI 能“主动介入”。现在我们都得手动触发 AI 工具,或者说一声 “Hey Siri”。但未来有没有可能 AI 能实时反馈?比如你说“法国首都是伦敦”,它立刻跳出来说“是巴黎”。这比事后更正有用得多。

我设想的未来是,大家戴着 XR 眼镜,AI 像外脑一样,实时提供提示、策略,甚至帮你组织语言,不只是总结,而是现场协助。这是我觉得非常值得深入尝试的方向。


loading


👦🏻 Koji

我最近见了一个做“主动式 AI”的团队,叫 Proactor AI[3]。他们的产品能全天监听,在你开口前就判断需求并给出建议。但挑战在于两点:一是处理大量用户数据,二是在不打扰用户的前提下精准介入。我相信这种主动式形态是 AI 的未来。


👨🏻 鸭哥

同意。出必买。

我还在想另一种「回溯式调用」的方式。

现在我们用 AI,通常得先按按钮再说话,比如 ChatGPT。但如果设备能持续录音,就像相机的“预录”功能,一旦按下按钮,就把之前几秒的语音发给 AI,让它判断你想干嘛。这种方式能降低使用门槛,也可以和「主动介入」的模式互相补充。


👦🏻 Koji

你刚提到的主动式 AI 让我想到 Proactor 团队说,有时候 AI 需要的 context 不只是过去,还包括你接下来可能要干嘛。所以他们选择了全天监听、主动跳出的服务式 AI。

那你给 AI 装上“眼睛”和“耳朵”之后,它是如何具体帮你处理日常事务的?


👨🏻 鸭哥

以前我和 AI 更多是“嘴炮式互动”,我下指令,它给建议,最后还是我去执行。后来我开试 ChatGPT 的 Operator 功能,让它真正帮我“动手”干活。

我让 AI 帮我做了两件事,效果都不错。

第一是网上买菜。以前我需要手动搜索、选品、加购物车,常常花二三十分钟。现在我直接用语音告诉 AI 要买什么,它就自动搜索,加入购物车,还能查我的历史订单,知道我偏好的品牌。有时还能预测哪些菜快用完,主动补上。最后我只需点一下任务执行按钮,它就把所有菜加好,我再简单筛选后下单,整个流程压缩到五分钟。

第二个是寄包裹。美国寄件大量信息都需要手动填写,很费时间。我现在直接报给 AI 包裹信息和地址,它就在后台自动操作,帮我选 USPS、跳过保险,五分钟后告诉我搞定了。我只需要结账就行。


Part 3 对人如何使用 AI 的思考


👦🏻 Koji

感觉你做的这些事,都是在极限提升效率。


👨🏻 鸭哥

确实,这背后其实是我一直在想的一个概念:赛博长生。不是那种上传意识、永生不死的幻想,而是在同样的时间里,能不能让自己完成更多的事情。

比如买菜。线下去超市可能只花 100 块,但要耗掉一小时。线上买菜虽然贵 20 块,但我只要 5 分钟就能搞定。本质上是用钱换回 55 分钟的时间。

你要说 20 块钱换 55 分钟命,大家都愿意。但一说“买贵了 20 块”,反而就不想花了。其实这就是我理解的“赛博长生”:不是多活几年,而是把每一天过得更高效。


👦🏻 Koji

有些人就是喜欢逛菜市场,对他们来说,那是生活的乐趣。他愿意用省下的时间去做这件事。


👨🏻 鸭哥

没错,这种选择完全合理。但如果你不享受逛市场,你也可以把时间用来陪家人、打游戏,或者什么都不做。从某种意义上说,这也是一种“长生”,或者叫时间置换。


👦🏻 Koji

上一期我们采访了 RockFlow 的 Vakee。他说推出金融 Agent Bobby 之后,原来的 App 已经不太需要了,未来可能只保留对话式的 agent。最近 Sam Altman 也提到,GUI 很可能会被取代。你怎么看这个观点?


👨🏻 鸭哥

GUI 最初是为了降低使用电脑的门槛,让不会写代码的人也能操作。但在买菜、寄快递这些场景里,反而成了效率的障碍。现在我直接用自然语言让 AI 去操作 GUI,就像派了个代理人,效率反而更高。

这也说明,GUI 这种几十年前的交互方式,可能真的到了该被重新思考的时刻了。


loading


👧🏻 Ronghui

你现在有没有看到哪些公司在探索替代 GUI 的交互方式?


👨🏻 鸭哥

还挺多的,像 Apple Watch 最近推出的 “点两下” 手势就是一个例子。未来如果眼镜设备普及,像手部细微动作、甩手、方向变化这些 IMU 信号,也都可能变成新的交互方式。空间很大,但目前还很难判断哪种形式会成为主流。


👦🏻 Koji

我感觉鸭哥比其他人更快地去拥抱新技术,是 early adopter 中的 early adopter。


👨🏻 鸭哥

是的,我比较 geek。


👦🏻 Koji

最近有没有用到什么新产品,让你觉得未来可能会爆火?


👨🏻 鸭哥

暂时没有特别惊艳的完整产品,但很多新功能让我很兴奋。比如 ChatGPT 每周更新的新特性,像 Codex、Operator 等。我现在更多是在用它们的组件,加上我自己的想法,做一个“山寨版 ChatGPT”。代码很多也是 Cursor 或 Trae 生成的。

我觉得 AI 最大的改变是,它让我们不必再等厂商做出理想的“爆款”。现在,我们可以把自己的想法直接灌注到已有产品中,拼出一个真正符合自己需求的工具。


👦🏻 Koji

你上次来我们节目时,正值 Manus 发布。现在过了三四个月,你还在用 Manus 或类似的 Agent 产品吗?会在什么场景下用?


👨🏻 鸭哥

我一直在用 Manus,尤其是外出时不能坐在电脑前,又想快速算点东西或调研。

比如我最近关注一场咖啡豆的拍卖 Best of Panama,它有个 sample box,我就想知道这三盒样品值不值那个价。最直接的算法是参考去年拍卖的单价乘以 100 克,但手动查算太费劲。

我只花了 30 秒和 Manus 说明需求,它花十分钟生成了结果,还带中间过程。价格比今年卖得便宜不少,我就决定买了。

这类 Agent 工具在生活里还是挺实用的。


👦🏻 Koji

哇,我感觉你每天关注的事情好多。


👨🏻 鸭哥

是啊,这其实就是我说的“赛博长生”。

没这类工具,你只能硬着头皮买,或者老老实实查资料、算钱,半小时就没了。有了 Manus,相当于多活半小时。


👧🏻 Ronghui

我感觉你的能量好高,可能也是因为 AI 替你分担了很多事,帮你省了不少精力。


👨🏻 鸭哥

确实有帮助,但也不全是 AI 的功劳。我觉得能量高,一方面和性格有关,另一方面取决于你每天在做什么。如果每天做的都是有趣、有挑战的事,而不是机械重复、替别人收尾的工作,那人自然会更有动力。像刚才说的,把调研交给 AI,我只负责做决策,那种成就感和幸福感是完全不一样的。这就是我说的,不只是提高密度,更是提高生活的“质量”。从这个意义上说,也算是延长了寿命。


👧🏻 Ronghui

我感觉最开心的,往往是两种人:一种是像你这样,AI 用得很熟练的;另一种是完全不关心这些技术、没有信息焦虑的人。反而是中间那批人,会觉得每天都有东西要学、很多还没跟上,总是在焦虑和拉扯中。


👨🏻 鸭哥

确实,这也算是一种命运的眷顾吧。


👧🏻 Ronghui

你自己动手做这些项目,最大的乐趣是什么?感觉你真的挺享受这个过程的。


👨🏻 鸭哥

最大乐趣就是“做成了”。以前不会的事,现在做到了,比如像学会飞行一样。

对我来说,能力的突破本身就是最好的奖励。


Part 4 当 AI 更懂你:人与技术关系的新伦理


👧🏻 Ronghui

我最近刚看了你写的小说,没想到研究 AI 的同时还能写小说。


👨🏻 鸭哥

其实是 AI 写的,严格来说我只是写了提示词。


👧🏻 Ronghui

里面有个情节我印象很深:一个下班很累的人回家,太太情绪不好,AI 提示他该怎么回应。这个是不是你“赛博长生”想法的一部分?


👨🏻 鸭哥

对,这正是我想表达的。但仔细一想也有点荒谬:如果和伴侣相处时还需要 AI 提示,那我还是“我”吗?可现实是,AI 的建议往往比我们更理性、更精准,甚至更贴心。这也就带来了很多像《黑镜》里那样的冲突。


👧🏻 Ronghui

你写的小说是不是也表达了你对未来“赛博生活方式”的想象?


👨🏻 鸭哥

是的,如果用一个词概括,那就是“别扭”。比如有一篇讲一个人回家看到妻子因工作压力大而哭泣,AI 提出几种安慰方案:讲个笑话、给他一段话照着读、或者执行一整套“情绪修复动作包”。但每个方案都要消耗 AI 预算点。他因为下周有个重要会议,只能选最便宜的选项,结果没什么用。

人在技术面前常常不得不做出一些艰难甚至荒谬的选择。

我对技术本身是乐观的,但也觉得它会带来很多我们未必能应对的社会问题。


loading


👦🏻 Koji

你会不会有时觉得,现在的 AI 比任何朋友或家人都更懂你、也更能帮到你?想到这一点,你的感受是开心、失落,还是有点恐怖?


👨🏻 鸭哥

这其实挺恐怖的。当你意识到 AI 的确能提升你的效率、改善你和他人的关系,就很容易依赖它,甚至有点上瘾。但问题是:那还是“我”在活吗?还是 AI 借着我的身体在活?这个界限有时真的很模糊。


👦🏻 Koji

你会有种 AI 借着你的躯壳在活的感受?


👨🏻 鸭哥

虽然没那么极端,毕竟现在还没出现那种小说里的 AR 眼镜,但我确实会在很多决策时请教 AI。无论是明天去哪玩,还是如何处理家庭矛盾,它给出的方案往往比我更理性、更成熟,也确实更有效。可从某种意义上说,那些决定都是它做的,我只是去执行而已。这种感觉,还挺恐怖的。


👧🏻 Ronghui

你觉得现在有很多人像你这样,过着高度融合 AI 的生活方式吗?


👨🏻 鸭哥

不多。我身边这样的人很少。

一方面是因为本身就没那么多人在深度使用 AI,另一方面是这个领域太新太分散,就算都是 early adopter,也可能走在完全不同的路径上,彼此难以交集。


👧🏻 Ronghui

我以前看过一部 Bradley Cooper 演的电影 《Limitless(永无止境)》,他吃了一种聪明药后变得精力旺盛、聪明又成功,最后却对这药极度依赖,甚至想自己生产。


这种状态让我想到现在用 AI 的感觉,有点像。


loading



👨🏻 鸭哥

是的。更可怕的是,我听完你讲的第一反应是:要是我现在有副 AR 眼镜,可以直接根据你刚才的描述搜出电影名字就好了。这就像黑镜那种递归感,我真的很需要那个“聪明药”。


👧🏻 Ronghui

你是AI加强过的人类(笑)。


👨🏻 鸭哥

是,它就是我的外脑。


👧🏻 Ronghui

我想问一个可能有点冒犯的问题:你觉得用 AI 之后,有失去什么吗?


👨🏻 鸭哥

我暂时没觉得自己真的失去了什么。我每天都会记录自己做了什么事,有了 Apple Watch 的录音功能之后更方便了。我还把这些记录丢给 AI,请它给建议。它说我做事太有目的性,没有真正放空的时间。如果说有失去,可能是失去了那种无所事事的闲暇。但我回头想想,就算没 AI,我也会把时间塞满,比如学飞行,去折腾别的东西,可能也不会闲着。


👦🏻 Koji

那你有没有想过,有一天你离开了,但 AI 还记得你的一切,别人还能通过它和你“对话”?你愿意吗?


👨🏻 鸭哥

Why not?反正我已经离开了,之后发生什么也管不了了。某种程度上,这也算是“赛博永生”了。关键还是看,就算人不在了,还有没有留下对这个世界的影响。


👦🏻 Koji

你作为有孩子的家长,在教育孩子和 AI 共处这件事上,有什么思考?


👨🏻 鸭哥

我觉得这特别重要。虽然我孩子还小,但我觉得,比起数数、背唐诗,更重要的是从小培养一种直觉: 哪些事可以交给 AI,哪些是核心能力不能轻易让渡怎么判断 AI 的表现,怎么当好 AI 的“老板”。这种能力比会几百首唐诗、早两年学会乘法都更有意义。我相信未来世界里,早点接触并学会用 AI 是很关键的。


👦🏻 Koji

他现在几岁?跟 AI 怎么互动?


👨🏻 鸭哥

才三岁多,和 AI 没有太多互动,主要是听 AI 给他讲故事。我们会用 ChatGPT 的实时对话模式,也在尝试引导他和 AI 聊天,但他暂时还不太感兴趣。

不过我们用 Manus 干了一件挺有意思的事:比如睡前讲白雪公主的故事时,我们会偷偷加点私货进去,比如说“要好好吃饭”,他还挺愿意听的。


Part 5 未来畅想:从用好 AI 到管好 AI


👦🏻 Koji

节目的最后,想请你分享一下,最近几个月你观察到哪些最带劲的变化,可能预示着巨大的商业价值?


👨🏻 鸭哥

我有两个感受。

第一,AI 的进化速度一直没放慢。就像两三年前我们没法想象今天的 ChatGPT,六个月前我也想不到 Claude Code 和各种工具会这么成熟,甚至 Facebook 都开出了 1 亿美元的入职奖金。AI 真的在朝着极限冲刺。

第二,Agentic AI 正在成为主流。我一直相信这是 AI 的正确方向,也很高兴看到它越来越火。我现在做的 Agentic Workbench 就是相关方向,所以特别兴奋。


👦🏻 Koji

Agentic Workbench?


👨🏻 鸭哥

我自己开发了一个类似 ChatGPT 的小工具,我称之为 Agentic Workbench。

它的核心能力是,可以接入我本地的个人数据库。我实现了一个 Agentic Retrieval System,它不像 RAG 一样是一个固定的工作流,而是当AI在思考如何完成一个任务时,如果它自主判断需要更多背景信息,它才会触发搜索工具,自己去构造关键词,从我的记忆数据库里检索相关信息,并利用这些信息来支撑它的分析和回答,或者在必要的时候迭代关键字进行进一步搜索。

通过这种方式,我把信息的利用也变成了一个低摩擦的、由 AI 自主驱动的过程。


👦🏻 Koji

你刚才提到有很多喜欢的产品,也有不少自己的想法。如果你能参与其中,会做出哪些不一样的东西?可以讲讲两三个例子吗?


👨🏻 鸭哥

我最喜欢的产品是 ChatGPT,我个人认为它比 Gemini 和 Claude 至少领先两三个身位。如果能加入 OpenAI 给 GPT 加新功能,我会很兴奋。反过来,我特别不喜欢 Gemini 的 App,具体能吐槽半小时(笑),但如果 Google 找我去改进它,我也愿意去做。

还有一些 Startup,比如 Manus、Cursor、Trae,这些产品我也在用,也有不少想法可以贡献进去。


👧🏻 Ronghui

你刚才提到你也在做一个产品,能讲讲吗?


👨🏻 鸭哥

其实就是一个“山寨版 ChatGPT”,但我加了两个改进:一是让它更透明,能看到 AI 是怎么思考的,并有机会干预,这点 ChatGPT 和 Gemini 现在还做不到。二是加了很多工具,比如能把 YouTube 音频转文字、接我自己的数据库等,整体更贴合我自己的使用习惯。


👧🏻 Ronghui

你平时时间怎么分配的?


👨🏻 鸭哥

其实每天也就工作 2~4 个小时,剩下都交给 AI 处理了。它写代码的效率很高,我在公司提交的代码量还是前四。对,前四就是第四(笑)。

AI 帮我省下了大量时间,让我可以自由去做更多自己感兴趣的事。


👧🏻 Ronghui

如果你给一个和你类似工作的工程师一些提升效率的建议,你会说什么?


👨🏻 鸭哥

学会用AI。


👧🏻 Ronghui

假设他已经在用了呢?


👨🏻 鸭哥

那我会建议:别把 AI 只是当作工具来看。

AI是一个像人一样的东西,我们应该把它当做一个下属,而不是一个工具。

你要像一个好老板那样去使用它——明确任务,提供足够的信息,检查交付质量,帮助它解决被卡住的问题。

用这种心态去协作,很多原本常见的失败模式就能避免。


👧🏻 Ronghui

我最近也有类似的感觉。昨天我还在说 “ChatGPT 跟我讲了什么”,感觉我是在说一个人,而不是一个工具。


👨🏻 鸭哥

是的,因为它太强大了,我们不得不把很多背景信息交给它。比如开车,其实很复杂,但我们把很多东西自动屏蔽了,比如交警、信号灯、行人,所以觉得开车很简单。但 AI 不一样,我们让它处理更多、也更难的任务,自然就需要用新的方式和它协作。

这时候,管理学就派上用场了。我们要像管理一个人一样去管理 AI。


👦🏻 Koji

可以展开讲讲吗如何用管理学的方式和 AI 相处吗?


👨🏻 鸭哥

可以。简单来说,管理学的本质是在布置任务时,确保对方理解你说的是什么、知道怎么执行,并且最终交付的结果符合标准。你要处理沟通、技术风险、结果验收等等一整套流程。

但管理 AI 和管理人又有很大不同。比如,人需要画饼、要开 one-on-one,而 AI 不需要这些。

AI 真正需要的是上下文。你要维护好它的 context,才能让它发挥得好。所以,和 AI 协作,其实是一种全新的管理技能,既像管人,又必须用新方法。


loading


👧🏻 Ronghui

我觉得 context 真的很关键。人和人沟通时常常会误解,和 AI 对话时这种问题更明显。它不知道你的背景,就可能答非所问。但如果你给的信息足够,它的回应就会很好。


👨🏻 鸭哥

是的。如果信息不够,AI 就容易幻觉。因为它被训练的目标是给用户提供帮助,可当它遇到没信息又要帮忙的时候,就只能瞎编。这就是幻觉的来源。


👧🏻 Ronghui

你平时看哪些 AI 相关的信息源?


👨🏻 鸭哥

我不太看固定的网站,我每周会定时让 ChatGPT 做一次 AI 领域的 Deep Research,然后看它整理出的报告。


👦🏻 Koji

今天非常感谢鸭哥做客十字路口。很多人还在摸索怎么用好 AI,但鸭哥已经在用它作为第二大脑,甚至帮助你理解世界、理解自己。

我们期待继续和你一起观察 AI 的演进。欢迎改天再来!


👨🏻 鸭哥   

好!


👧🏻 Ronghui

谢谢。


他的 AI 实验给你哪些创业灵感?|和鸭哥聊:给 AI 加上耳朵、眼睛,用 AI 买菜、寄快递


loading

参考资料

[1]

Computing Life: https://grapeot.me/


[2]

《From User to Builder》: /2238e8f58ed18087a91acf9fcf252e9e


[3]

Proactor AI: http://proactor.ai/



AI 前线

AI 智能体的上下文工程:实用指南

2025-12-23 13:01:23

AI 前线

从需求到研发全自动:如何基于 Multi-Agent 架构打造 AI 前端工程师

2025-12-23 13:01:41

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索