本文深度解析了国产大模型独角兽阶跃星辰的战略转型。在 AI 行业进入“淘汰赛”的 2026 年，阶跃星辰通过完成超 50 亿元的大规模融资及引入原旷视科技联合创始人印奇出任董事长，明确了“强模型+强终端”的发展路径。文章详细介绍了阶跃星辰的“1+2”技术体系，即以万亿参数大模型为核心，结合原生多模态与理解生成一体化技术，推动 AI Agent 在手机（如 Step-GUI）和智能汽车（智能座舱与智驾）等核心终端的规模化应用。通过与华勤、吉利等硬件巨头的深度绑定，阶跃星辰试图构建从底层模型到操作系统再到跨端 Agent 的闭环生态，将 AI 从云端对话框推向真实世界的物理交互。

阶跃星辰的答案，是 AI + 终端。

👦🏻 作者: 镜山

🥷 编辑: Koji

🧑‍🎨 排版: NCon

「表演赛」结束，「淘汰赛」开场。这可能是形容「 AI 2026 」最好的开场语之一。

如果用一个相对冷静的视角回看过去两年的 AI 行业，会发现一个很清晰的事实：绝大多数玩家，其实都挤在同一条赛道上，做着高度相似的事：刷榜、刷 Benchmark，在各种基准测试里争夺 SOTA。

模型能力的进步当然很重要，但当头部基础模型厂商陆续进入商业化阶段，到了 2026 年，这种竞争方式开始显得有些单薄。

一方面，模型能力的提升出现了「边际递减」；另一方面，市场也不再单纯为「更大、更强」本身支付过高的溢价。

大家的关注点逐渐转向更现实的问题：

谁能真正把能力落地？AI 在硬件上的载体做得如何？

也正是在这样一个时间点上，阶跃星辰，突然给出了非常明确的 2 个信号：一笔体量罕见的 B+ 轮融资落地，随后，印奇进入关键位置，正式出任阶跃星辰董事长，让阶跃在「模型能力」和「终端场景」之间,有了更直接的连接通道。

这笔超 50 亿元规模的 B+ 轮融资，金额不仅刷新了过去一年大模型领域的单笔融资纪录，甚至超过了部分同行的 IPO 募资规模。

参与这次 B+轮的机构包括多家产业投资方，比如华勤技术是移动终端领域里的领先巨头，在「终端场景」下与阶跃星辰的方向很匹配。国寿股权、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术、上国投先导基金、国寿股权、浦东创投等投资方被认为是投资门槛很高，平常不轻易出手。而在这些机构之中，我们也看到了来自长三角地区的硬件供应链的大玩家；腾讯、启明创投等原先的老股东也选择持续加码、进一步跟投，可以说互联网大厂和专业财投机构保持了一以贯之的「背书」。

将这 2 个信号结合来看的话，不难发现阶跃星辰已经切换到另一套逻辑：以大模型为核心能力，向终端和硬件侧延伸。

🚥

接下来，行业要回答的问题，将会是：谁能把 AI 放进真实世界，并长期跑得通。

本文将从这个视角出发，讨论一个大家越来越无法回避的问题：「AI + 硬件」对于 AI 基础模型厂商来说，到底意味着什么？

AI 正在进入「各种各样的终端」

Sam Altman 今年接受采访的时候,聊过他怎么看 AI 的发展。他说得挺清楚的:AI 不会一直待在大型数据中心里,也不会只靠云端来运行。

以后,AI 会慢慢进入我们的手机、电脑这些设备，落到具体的硬件和专用设备上。

你看看以前的技术发展,会发现一个规律：

真正影响深远的技术,最后都会找到自己的硬件载体。

回头看看过去一年 AI 应用遇到的问题,有个问题特别明显:模型本身越来越厉害了,但实际用起来并没有方便多少。

AI 现在理解能力和推理能力都挺强的,但还是受限于怎么调用它、怎么跟它交互、在什么场景下用,所以它能做的事情其实还是不够多。

现在大部分 AI 应用,还是停留在 API 接口或者对话框这种形式,能用的场景很有限。

一旦进入现实世界里那些复杂多变的情况,模型再聪明也没法直接转化成实际操作,流程就卡在中间了,商业也就做不成闭环。

这就是为什么能进入手机操作界面的 Agent 和能在电脑桌面上干活的 Agent,开始受到大家的重视。

因为,它们不需要把所有系统都改造一遍才能用。

比如说吧，GUI Agent 通过看懂屏幕和控制操作,可以直接在现有的手机界面上工作。

从趋势来看，AI 的发展方向正在变。而要走到这一步，硬件基本上是绕不开的。

这也正是「AI + 终端」的底层逻辑之一。

按照这个思路，我们拿阶跃星辰举个例子，就能看出他们给出了一条比较清楚的路:

阶跃觉得AI+终端的终局，会是超级助理+跨端OS驱动的软硬件一体化方案。在具体落地上，用阶跃自己研发的大模型作为大脑，负责复杂的思考和判断，然后跟千里科技这些做终端设备和产业的伙伴合作，把这些能力放进实际的硬件和真实场景里去试。

这种做法，说白了就是「强模型 + 强终端」。

强模型负责想明白事情该怎么做。理解问题、拆分任务、做决定,这些都在模型层面搞定。

强终端负责把事情真正做出来。像手机、汽车这些我们天天用的设备,本身就在真实场景里运行,能不断产生反馈,再把结果传回给模型。

当这两部分配合起来，AI 就开始变成一个能长期运行、不断学习的系统了。

当然了，走这条路的也不只是阶跃一家。

很多做 AI 基础模型的厂商其实都会走向同一个方向：让 AI 真的进入现实世界，开始干具体的活。

在观察这场「AI + 终端」竞赛时，阶跃星辰这样的团队，是一个比较合适的观察样本：它的路径比较完整，走的也比较快。

真正的问题在于，怎么让 AI 在真实场景、真实的硬件终端里稳定运行？

阶跃星辰在这场竞赛中慢慢搭建出了一套「1+2」技术体系。

和常见的把视觉模型、语言模型简单拼在一起的做法不同，阶跃从成立时就看重原生多模态模型和理解生成一体化。这种设计的好处在于，模型在理解问题、做规划、再到执行动作之间的切换更顺畅，也更容易跟真实世界交互,也就是往 VLA 场景发展。

在基础模型这块，阶跃是国内少数几个训练过万亿参数模型的初创团队之一，也是唯一大规模投入自建AI Infra的。Step-3 推理模型在效率和性能上都比较平衡，在多项公开测试中表现也很稳定。因为在系统架构层面做了创新，Step 3 在国产芯片上的推理效率最高可达 DeepSeek-R1 的 300%，且对所有芯片友好，具有极高的实用性。

同时，在多模态和 VLA 方向，阶跃已经陆续推出了 30 个模型，能力覆盖得比较全面。

比如在语音、多模态理解和生成，还有 GUI 操作这些方向，其实已经能看到可以直接验证的模型形态了。语音是最普适化的人机交互模式，阶跃一直在探索前沿语音技术的上限，不久前其原生语音推理模型Step-Audio-R1.1在Aritificial Analysis Speech Reasoning 榜单上拿下全球第一。技术落地上，阶跃和吉利合作实现了业内首次端到端语音模型量产上车。

从整体看，这套「1+2」的结构，更像是在提前为长期使用和真实场景打基础。

在这样的逻辑下，AI 真正走向终端时，往往会先落在那些使用频率高、操作复杂、数据不断产生的设备上。

最经典的、也是最能在日常生活中有存在感的，就是：

手机和汽车。

当 AI 开始「像人一样」操作屏幕

如果说「AI + 终端」这套战略听起来还有些抽象，复杂的话，那么在手机端的实际体验中，这种变化已经变得非常直观。

首先，手机是离用户最近、使用频率最高的终端。

几乎所有有价值的行为，都集中在手机上。聊天、支付、看内容、出行安排、工作协同，基本都离不开手机。如果 AI 进不了手机，就很难真正参与用户每天的判断和操作。

更重要的是，手机本身已经很成熟了。

有完整的 App 体系，有系统级权限，有通知机制，也有清晰的输入和输出方式。GUI 已经很稳定，交互路径也很明确，甚至已经有庞大的保有量，这对 AI 来说，是现成就能用的环境。

在此前《十字路口》对阶跃星辰 Step-GUI 的实测中，我们看到了一种和以往 AI 不太一样的使用方式。它不再要求用户一步步点按钮、走流程，可以直接理解目标，然后自己完成操作。

比如，在我们的实测中，只需要一句话，就能让 Step-GUI 自主操纵手机，真实地根据任务要求，打开真实的软件 APP：

“帮我把快手极速版里的金币赚了，然后提现到微信。”

为了让这套方案真的跑起来，阶跃星辰走的是一条比较务实的架构路线，核心就是端云分工。

【1】端侧

在手机本地运行小模型，主要负责点击、滑动这类高频操作，同时处理和隐私相关的数据，保证响应速度，也让用户少一点「隐私焦虑」。

【2】云侧

把更复杂的判断、任务拆解和整体规划交给云端的大模型来做。

整套设计，说白了就是：简单、频繁、对时延敏感的事放在本地；复杂、需要全局判断的事交给云端。

这条路线并不是为了做展示。

根据公开信息，阶跃星辰的终端 Agent 调用量已经连续三个季度保持接近 170% 的增长。在实际落地上，他们已经和国内 60% 的主流手机厂商合作，包括 OPPO、荣耀、中兴等，相关模型已经装进超过 4200 万台旗舰机，日均服务接近 2000 万人次。用户使用这些能力智能搜索、拍照问答、写朋友圈、生成个性化主题

这算是一份还不错的成绩单。

同时，这也意味着，很多用户其实已经在日常使用中，开始接触这种新的 AI 交互方式，只是未必意识到它已经变了。在很长一段时间里，手机的核心 PK 点都是硬件配置，但未来，用户选择的天平很可能会倾向于哪款手机有更强的 AI 体验。

汽车：AI 的下一个超级终端？

如果把视角从手机继续拉远，汽车几乎是 AI 最重要的下一个落点之一。

原因也很好理解。

汽车场景可以分为智能座舱和智能驾驶。和手机相比，汽车场景下的常用应用不到前者的十分之一，所以智能座舱的服务生态和体验可能会比手机更早被AI重构，而智能驾驶要面对的是更复杂的实时环境。路况在变，周围的人和车在动，对判断、规划和执行的要求都更高，而且一旦出问题，代价也更大。

也正因为这样，汽车天然就成了一个测试场景。

在这里，AI 要真的能判断、能做决定、还能把动作执行出来。这让汽车直接变成了检验 AI 是否真的具备行动能力的地方。

此前，「十字路口」团队参加了千里科技在重庆的发布会，我们看到一个很明显的变化，在那种路况复杂、情况很多的城市环境里，接入了阶跃大模型能力的智驾系统，整体表现更稳，决策节奏也更像一个开了很多年车的人。

当时有一个概念被反复提及：老司机感。

但对阶跃来说，汽车并不只能是自动驾驶的载体。

通过和千里科技、吉利汽车的深度合作，他们推的是一整套以 Agent 为核心的智能座舱方案。这里面有个关键点就是，这条路线之所以能成立，一个绕不开的因素是印奇直接下场了。

印奇同时站在模型公司和整车体系的核心位置，这一点在外部看来，比较关键。

它意味着模型能力怎么设计、系统架构怎么搭、能力在哪一层下沉，这些问题，可以从一开始就围绕同一套共创逻辑来展开。

统一的大模型，统一的系统架构，让 AI 从底层就参与到整车的运行逻辑中，真正做到软硬件结合，而不是按传统技术供应逻辑，把 AI 直接套上去。这对于汽车这种高度复杂的终端来说，差别确实还挺大的。

从结果看，这套体系已经开始进入规模化阶段。

相关的量产车型在持续上市，搭载阶跃大模型能力的车辆数量也在快速增加。车一多，真实的驾驶和使用数据就会不断回流。

这些数据直接来自真实路况和真实用户，模型在实际场景里的表现，会被反复校正和加强。久而久之，就会形成一个很清晰的正向循环：用得越多，数据越多，模型也就越接近真实世界的需求。

比如，吉利银河 M9 上市 3 个月左右，销量接近 4 万辆，并且已经开始进入海外市场。按照目前的节奏，今年阶跃大模型「上车」的规模，很可能会超过百万辆。

也正因为这样，对很多纯软件公司来说，汽车并不是一个容易切入的战场，这里拼的不只是模型好不好。

模型、系统和整车，能不能从第一天开始就跑在同一条线上，很重要。因为这场比赛，本身就是一个被拉得很长的过程。

也正是在这个前提下，阶跃星辰能走到现在，团队结构本身是一个很关键的因素。

如果简单概括，可以把这支团队理解成一个「1 + 3」的组合。

我们也专门梳理了相关背景。

「1」位产业操盘手：印奇。

他完整经历过 AI 从技术浪潮走向产业落地的过程。

作为千里科技的董事长，他一直在尝试打通 AI 比较难落地的场景，也就是汽车。作为关键先生，印奇把包括吉利在内的车圈资源跟阶跃连接在了一起。这为阶跃星辰推进「AI + 终端」提供了一个现实的点。

「3」位技术核心：

阶跃 CEO 姜大昕：作为阶跃 CEO，他曾任微软全球副总裁，长期在做搜索和 NLP 方向，对从底层数据到上层应用的完整技术链条非常熟悉。

阶跃首席科学家张祥雨：作为 ResNet 论文作者之一，他的研究背景为团队在模型架构层面提供了一个比较稳的技术上限。

阶跃 CTO 朱亦博：负责系统方向，曾在字节跳动主导 AI Infra 相关工作，国内极少数有万卡训练经验的人

放在一起看，这套「1 + 3」的组合，刚好覆盖了从产业判断、模型能力，到系统工程和终端落地的几个关键的环节。

也正因为这样，阶跃星辰既有能力去做长期的基础模型，又能尝试把这些能力一步步推到真实产品和真实终端里。

🚥

过去很长一段时间内，大家都在说「AI + 终端」是一种尝试改变 AI 参与生活的方式。

在阶跃的设想中，这种未来的智能体验，可以由一整套体系支撑。

简单说，就是：

有负责理解和决策的多模态大模型，有能跑在不同设备上的 OS，还有一个在各种场景里持续工作的 Agent。

在这种结构下，AI 不再被关在某个 App 里，将会自然地分布在手机、汽车，以及更多终端设备上。

但这里也要把话说清楚。

大模型、OS 和 Agent 放在一起，并不会自动变成一条能赚钱、能持续运转的商业闭环，但的确有可能形成新的流量入口。

对所有做 AI 基础模型的厂商来说，这依然是一条需要靠时间、靠真实落地来验证的路，现在还没有现成答案。

{{userData.name}}已认证

阶跃的一次重要“阶跃”：超 50 亿元 B+ 轮融资，印奇正式出任董事长

🚥

AI 正在进入「各种各样的终端」

当 AI 开始「像人一样」操作屏幕

汽车：AI 的下一个超级终端？

🚥

Rust 贡献者探索 AI 辅助编译器开发：推出全新 Rue 语言

Google 发布 Gemma 3 270M 变体：专为移动端和边缘设备的函数调用而优化

亚马逊钥匙：每年解锁 1 亿扇门的系统架构解析

127: 与真格戴雨森 25 AI 中场复盘：OpenAI 的 IMO 金牌、Kimi K2 翻盘、Agent 普及和抢人大战

得物 App 智能巡检技术的探索与实践

小型团队实践指南

别卷功能了，用户要的是“懂”

周亚辉为什么把时间花在“写歌”上？| 实测 Mureka V8