AI 语音交互：巨头和创业公司们都在做什么

文章深入分析了当前 AI 语音交互领域，总结了巨头公司（OpenAI、苹果、谷歌、亚马逊、微软）和创业公司（Wispr Flow、Aqua Voice、Superwhisper、Known）在语音交互产品和技术上的最新进展和应用方向。巨头们重点将语音能力嵌入其核心场景和生态系统，如 OpenAI 的实时电话 AI、苹果的跨设备语音指令、谷歌的追问式搜索、亚马逊的智能音箱升级以及微软的 Copilot 系统集成。而创业公司则聚焦于特定细分场景，致力于提升效率和用户体验，例如系统级语音输入、长文写作辅助、注重隐私的本地化转写工具以及基于声音匹配的社交平台。文章指出，当前 AI 语音交互已在容错率、延迟和上下文理解方面取得显著进步，并呈现出大公司做底层平台、创业公司做场景工具的差异化发展路径。

从OpenAI的实时电话AI到苹果的语音指挥棒，语音交互正迎来爆发式创新。大厂们纷纷将语音能力嵌入核心场景，而初创公司则在细分领域打造极致工具。本文将拆解语音交互的最新战场，看AI如何让对话从机械应答进化到自然交互。

———— / BEGIN / ————

前几天写了一篇关于语音交互的文章，大家有不少讨论，于是我特意找了一些聚焦语音交互的 AI 公司和产品，想和大家一起看看，现在做语音交互的公司们都在做什么。

大厂：卷场景，争入口

1. OpenAI：让 AI 像真人一样接电话

OpenAI 最近的动作非常快，他们把实时语音对话提升到了核心战略位置。

打断式对话：现在的对话模型不再是你一句、我一句的死板对讲，你可以在它说话时随时打断、纠正，它的反应速度和真人几乎没区别。

接管电话网络：最关键的动作是他们发布了支持 SIP（会话发起协议）的 Realtime API。通俗点说，开发者可以直接把 OpenAI 的语音能力接进公司的电话交换机里。

这意味着，你接到的客服电话、预约电话，背后可能就是一个反应极快、逻辑清晰的 AI 智能体。

AI 语音交互：巨头和创业公司们都在做什么

2. 苹果：语音变成指挥棒

苹果在 Apple Intelligence 苹果智能里，把语音能力切得很碎，塞进了最常用的沟通场景：

通话与录音的一条龙服务：现在的 iPhone 不仅能录音，还能实时转写成文字，并自动生成摘要。你打完一个半小时的电话，它直接给你列出三个待办事项。

AirPods 的实时翻译：戴上耳机，对方说外语，你听到的是中文，几乎没有感官上的延迟。

快捷指令：以前复杂的“快捷指令”需要手动编排，现在你只要动动嘴，Siri 就能直接调用这些能力帮你完成跨 App 的操作。

AI 语音交互：巨头和创业公司们都在做什么

3. 谷歌：一边搜索，一边聊天

谷歌把 Gemini Live 的能力深度嵌入到了搜索里，搞出了一个Search Live：

追问式搜索：语音搜索不再是“问一个问题，给一个答案”。你可以边聊边找，比如：“帮我找下周去大理的机票。”

搜出来后直接追问：“要下午出发的，价格不要超过一千。”它会根据之前的对话内容持续更新搜索结果。

4. 亚马逊：Alexa 终于要变聪明了

亚马逊推出了下一代Alexa+。这次他们很明确，Alexa+ 不再只是控制灯泡的开关，而是要走能聊天、能办事的路线。

它能记住你的生活习惯，处理更复杂的家务指令，比如“帮我订一份常吃的那个披萨，要在半小时内送到”。

5. 微软：Copilot 成了 Windows 的声卡

微软开始在 Windows 系统里大规模测试“Hey Copilot”唤醒词。他们想让语音成为办公的常驻入口。

不管是写 PPT 还是查表格，你不需要到处点菜单，直接说话，Copilot 就能在后台帮你把活儿干了。

AI 语音交互：巨头和创业公司们都在做什么

初创公司：拼效率、抢速度

Product Hunt 2025 年专门做了“AI 听写应用”的 Orbit Awards，我梳理了上面风头最劲的几家语音初创公司。

AI 语音交互：巨头和创业公司们都在做什么

1. Wispr Flow：想让你彻底扔掉键盘

它是做什么的：一个系统级的语音输入工具。

规模：刚拿到 8100 万美元融资，估值约 7 亿美元。

怎么用：你在电脑上任何能打字的地方（微信、邮件、Word），按下快捷键直接说话。

特点：它最厉害的地方在于“自动整理”。你说话的时候可能有口音、有废话、有重复，但它转出来的文字是逻辑严密、排版工整的。它就像一个全能速记员+文案编辑，目前已经有大量用户用它替代了 70% 以上的键盘输入。

2. Aqua Voice：专门为写长文设计

它是做什么的：针对长篇文档、剧本、报告的语音写作工具。

怎么用：你坐在椅子上，像讲故事一样把内容说出来。

特点：普通的语音转文字很难处理分段和语气。Aqua Voice 擅长捕捉你的情绪和语气，自动帮你判断哪里该分段，哪里是重点。它不是简单地记录，而是像个影子作者一样，帮你把零散的思想变成有可读性的长文章。

3. Superwhisper：主打隐私和本地化

它是做什么的：一个运行在本地设备上的极速语音转写工具。

怎么用：适合医生、律师、财务等对数据安全极度敏感的职业。

特点：它的模型是跑在你自己电脑里的（比如 Mac 的本地芯片），不需要联网。这意味着你的谈话内容永远不会传到云端，安全性极高，而且转写速度极快，几乎是话音刚落，文字就出来了。

4. Known：声音驱动的新社交

它是做什么的：一个基于语音匹配的社交平台。

规模：最近刚获得 9700 万美元融资。

怎么用：抛弃了传统的“看照片、左右划”模式。

特点：它让 AI 识别用户的声音特征、语调和表达逻辑，帮你找“聊得来”的人。他们认为声音包含的信息比文字和照片多得多。

AI 语音交互：巨头和创业公司们都在做什么

对比过去，语音交互也在进化：

容错率变高了：以前你要适应机器，说话得字正腔圆；现在是 AI 适应你，你随便乱说，它能听懂意思并帮你整理好。
延迟消失了：现在的实时 API 让对话延迟降到了毫秒级，你感觉不到是在和机器说话。
有了记忆和上下文：它知道你刚才说了什么，也知道你现在在处理什么任务。

我们也看到目前的语音交互市场，已经分成了两条明显的路径：

大公司在做底座：把语音接进系统、接进搜索、接进电话网，让它无处不在。
创业公司在做工具：针对写文档、防泄密、甚至社交等具体场景，把效率做到极致。

语音交互确实更符合用户习惯和认知，但我也同样期待下一个交互的 iPhone 时刻。

———— / E N D / ————

本文来自公众号：Fun AI Everyday 作者：张艾拉

{{userData.name}}已认证

AI 语音交互：巨头和创业公司们都在做什么

大厂：卷场景，争入口

1. OpenAI：让 AI 像真人一样接电话

2. 苹果：语音变成指挥棒

3. 谷歌：一边搜索，一边聊天

4. 亚马逊：Alexa 终于要变聪明了

5. 微软：Copilot 成了 Windows 的声卡

初创公司：拼效率、抢速度

1. Wispr Flow：想让你彻底扔掉键盘

2. Aqua Voice：专门为写长文设计

3. Superwhisper：主打隐私和本地化

4. Known：声音驱动的新社交

AI 圈新热词 Skills 到底是个啥？一篇文章整明明白白

客户说“你这产品不好用”，多半不是产品的问题，是预期没对齐

对话 TTC 创始人 Max：Agent 进场，招聘不再是一门卖简历的生意

K2.5，是 Kimi 的一个分水岭

阿里千问 vs 字节豆包：当 AI 开始“点外卖”，Agent 的 0-1 终局已定？

OpenAI CFO 摊牌：算力即营收，而 90% 的企业正被卷死在“能力鸿沟”里

普通人也能上手！5个零基础人工智能实操指南（附免费工具+步骤）

万字长文深度解析最新 Deep Research 技术：前沿架构、核心技术与未来展望