AI 语音交互:巨头和创业公司们都在做什么

文章深入分析了当前 AI 语音交互领域,总结了巨头公司(OpenAI、苹果、谷歌、亚马逊、微软)和创业公司(Wispr Flow、Aqua Voice、Superwhisper、Known)在语音交互产品和技术上的最新进展和应用方向。巨头们重点将语音能力嵌入其核心场景和生态系统,如 OpenAI 的实时电话 AI、苹果的跨设备语音指令、谷歌的追问式搜索、亚马逊的智能音箱升级以及微软的 Copilot 系统集成。而创业公司则聚焦于特定细分场景,致力于提升效率和用户体验,例如系统级语音输入、长文写作辅助、注重隐私的本地化转写工具以及基于声音匹配的社交平台。文章指出,当前 AI 语音交互已在容错率、延迟和上下文理解方面取得显著进步,并呈现出大公司做底层平台、创业公司做场景工具的差异化发展路径。




从OpenAI的实时电话AI到苹果的语音指挥棒,语音交互正迎来爆发式创新。大厂们纷纷将语音能力嵌入核心场景,而初创公司则在细分领域打造极致工具。本文将拆解语音交互的最新战场,看AI如何让对话从机械应答进化到自然交互。

———— / BEGIN / ————

前几天写了一篇关于语音交互的文章,大家有不少讨论,于是我特意找了一些聚焦语音交互的 AI 公司和产品,想和大家一起看看,现在做语音交互的公司们都在做什么。

大厂:卷场景,争入口

1. OpenAI:让 AI 像真人一样接电话

OpenAI 最近的动作非常快,他们把实时语音对话提升到了核心战略位置。

打断式对话:现在的对话模型不再是你一句、我一句的死板对讲,你可以在它说话时随时打断、纠正,它的反应速度和真人几乎没区别。

接管电话网络:最关键的动作是他们发布了支持 SIP(会话发起协议)的 Realtime API。通俗点说,开发者可以直接把 OpenAI 的语音能力接进公司的电话交换机里。

这意味着,你接到的客服电话、预约电话,背后可能就是一个反应极快、逻辑清晰的 AI 智能体。

AI 语音交互:巨头和创业公司们都在做什么

2. 苹果:语音变成指挥棒

苹果在 Apple Intelligence 苹果智能里,把语音能力切得很碎,塞进了最常用的沟通场景:

通话与录音的一条龙服务:现在的 iPhone 不仅能录音,还能实时转写成文字,并自动生成摘要。你打完一个半小时的电话,它直接给你列出三个待办事项。

AirPods 的实时翻译:戴上耳机,对方说外语,你听到的是中文,几乎没有感官上的延迟。

快捷指令:以前复杂的“快捷指令”需要手动编排,现在你只要动动嘴,Siri 就能直接调用这些能力帮你完成跨 App 的操作。

AI 语音交互:巨头和创业公司们都在做什么

3. 谷歌:一边搜索,一边聊天

谷歌把 Gemini Live 的能力深度嵌入到了搜索里,搞出了一个Search Live:

追问式搜索:语音搜索不再是“问一个问题,给一个答案”。你可以边聊边找,比如:“帮我找下周去大理的机票。”

搜出来后直接追问:“要下午出发的,价格不要超过一千。”它会根据之前的对话内容持续更新搜索结果。

4. 亚马逊:Alexa 终于要变聪明了

亚马逊推出了下一代Alexa+。这次他们很明确,Alexa+ 不再只是控制灯泡的开关,而是要走能聊天、能办事的路线。

它能记住你的生活习惯,处理更复杂的家务指令,比如“帮我订一份常吃的那个披萨,要在半小时内送到”。

5. 微软:Copilot 成了 Windows 的声卡

微软开始在 Windows 系统里大规模测试“Hey Copilot”唤醒词。他们想让语音成为办公的常驻入口。

不管是写 PPT 还是查表格,你不需要到处点菜单,直接说话,Copilot 就能在后台帮你把活儿干了。

AI 语音交互:巨头和创业公司们都在做什么

初创公司:拼效率、抢速度

Product Hunt 2025 年专门做了“AI 听写应用”的 Orbit Awards,我梳理了上面风头最劲的几家语音初创公司。

AI 语音交互:巨头和创业公司们都在做什么

1. Wispr Flow:想让你彻底扔掉键盘

它是做什么的:一个系统级的语音输入工具。

规模:刚拿到 8100 万美元融资,估值约 7 亿美元。

怎么用:你在电脑上任何能打字的地方(微信、邮件、Word),按下快捷键直接说话。

特点:它最厉害的地方在于“自动整理”。你说话的时候可能有口音、有废话、有重复,但它转出来的文字是逻辑严密、排版工整的。它就像一个全能速记员+文案编辑,目前已经有大量用户用它替代了 70% 以上的键盘输入。

2. Aqua Voice:专门为写长文设计

它是做什么的:针对长篇文档、剧本、报告的语音写作工具。

怎么用:你坐在椅子上,像讲故事一样把内容说出来。

特点:普通的语音转文字很难处理分段和语气。Aqua Voice 擅长捕捉你的情绪和语气,自动帮你判断哪里该分段,哪里是重点。它不是简单地记录,而是像个影子作者一样,帮你把零散的思想变成有可读性的长文章。

3. Superwhisper:主打隐私和本地化

它是做什么的:一个运行在本地设备上的极速语音转写工具。

怎么用:适合医生、律师、财务等对数据安全极度敏感的职业。

特点:它的模型是跑在你自己电脑里的(比如 Mac 的本地芯片),不需要联网。这意味着你的谈话内容永远不会传到云端,安全性极高,而且转写速度极快,几乎是话音刚落,文字就出来了。

4. Known:声音驱动的新社交

它是做什么的:一个基于语音匹配的社交平台。

规模:最近刚获得 9700 万美元融资。

怎么用:抛弃了传统的“看照片、左右划”模式。

特点:它让 AI 识别用户的声音特征、语调和表达逻辑,帮你找“聊得来”的人。他们认为声音包含的信息比文字和照片多得多。

AI 语音交互:巨头和创业公司们都在做什么

对比过去,语音交互也在进化:

  • 容错率变高了:以前你要适应机器,说话得字正腔圆;现在是 AI 适应你,你随便乱说,它能听懂意思并帮你整理好。

  • 延迟消失了:现在的实时 API 让对话延迟降到了毫秒级,你感觉不到是在和机器说话。

  • 有了记忆和上下文:它知道你刚才说了什么,也知道你现在在处理什么任务。

我们也看到目前的语音交互市场,已经分成了两条明显的路径:

  1. 大公司在做底座:把语音接进系统、接进搜索、接进电话网,让它无处不在。

  2. 创业公司在做工具:针对写文档、防泄密、甚至社交等具体场景,把效率做到极致。

语音交互确实更符合用户习惯和认知,但我也同样期待下一个交互的 iPhone 时刻。

———— / E N D / ————

本文来自公众号:Fun AI Everyday 作者:张艾拉


AI 前线

AI 圈新热词 Skills 到底是个啥?一篇文章整明明白白

2026-1-10 18:21:28

AI 前线

客户说“你这产品不好用”,多半不是产品的问题,是预期没对齐

2026-1-10 18:21:33

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索