本文深度解析了国产大模型独角兽阶跃星辰的战略转型。在 AI 行业进入“淘汰赛”的 2026 年,阶跃星辰通过完成超 50 亿元的大规模融资及引入原旷视科技联合创始人印奇出任董事长,明确了“强模型+强终端”的发展路径。文章详细介绍了阶跃星辰的“1+2”技术体系,即以万亿参数大模型为核心,结合原生多模态与理解生成一体化技术,推动 AI Agent 在手机(如 Step-GUI)和智能汽车(智能座舱与智驾)等核心终端的规模化应用。通过与华勤、吉利等硬件巨头的深度绑定,阶跃星辰试图构建从底层模型到操作系统再到跨端 Agent 的闭环生态,将 AI 从云端对话框推向真实世界的物理交互。
阶跃星辰的答案,是 AI + 终端。

👦🏻 作者: 镜山
🥷 编辑: Koji
🧑🎨 排版: NCon

「表演赛」结束,「淘汰赛」开场。这可能是形容「 AI 2026 」最好的开场语之一。
如果用一个相对冷静的视角回看过去两年的 AI 行业,会发现一个很清晰的事实:绝大多数玩家,其实都挤在同一条赛道上,做着高度相似的事:刷榜、刷 Benchmark,在各种基准测试里争夺 SOTA。
模型能力的进步当然很重要,但当头部基础模型厂商陆续进入商业化阶段,到了 2026 年,这种竞争方式开始显得有些单薄。
一方面,模型能力的提升出现了「边际递减」;另一方面,市场也不再单纯为「更大、更强」本身支付过高的溢价。
大家的关注点逐渐转向更现实的问题:
谁能真正把能力落地?AI 在硬件上的载体做得如何?
也正是在这样一个时间点上,阶跃星辰,突然给出了非常明确的 2 个信号:一笔体量罕见的 B+ 轮融资落地,随后,印奇进入关键位置,正式出任阶跃星辰董事长,让阶跃在「模型能力」和「终端场景」之间,有了更直接的连接通道。
这笔超 50 亿元规模的 B+ 轮融资,金额不仅刷新了过去一年大模型领域的单笔融资纪录,甚至超过了部分同行的 IPO 募资规模。
参与这次 B+轮的机构包括多家产业投资方,比如华勤技术是移动终端领域里的领先巨头,在「终端场景」下与阶跃星辰的方向很匹配。国寿股权、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术、上国投先导基金、国寿股权、浦东创投等投资方被认为是投资门槛很高,平常不轻易出手。而在这些机构之中,我们也看到了来自长三角地区的硬件供应链的大玩家;腾讯、启明创投等原先的老股东也选择持续加码、进一步跟投,可以说互联网大厂和专业财投机构保持了一以贯之的「背书」。
将这 2 个信号结合来看的话,不难发现阶跃星辰已经切换到另一套逻辑:以大模型为核心能力,向终端和硬件侧延伸。
🚥
接下来,行业要回答的问题,将会是:谁能把 AI 放进真实世界,并长期跑得通。
本文将从这个视角出发,讨论一个大家越来越无法回避的问题:「AI + 硬件」对于 AI 基础模型厂商来说,到底意味着什么?
AI 正在进入「各种各样的终端」
Sam Altman 今年接受采访的时候,聊过他怎么看 AI 的发展。他说得挺清楚的:AI 不会一直待在大型数据中心里,也不会只靠云端来运行。
以后,AI 会慢慢进入我们的手机、电脑这些设备,落到具体的硬件和专用设备上。
你看看以前的技术发展,会发现一个规律:
真正影响深远的技术,最后都会找到自己的硬件载体。
回头看看过去一年 AI 应用遇到的问题,有个问题特别明显:模型本身越来越厉害了,但实际用起来并没有方便多少。
AI 现在理解能力和推理能力都挺强的,但还是受限于怎么调用它、怎么跟它交互、在什么场景下用,所以它能做的事情其实还是不够多。
现在大部分 AI 应用,还是停留在 API 接口或者对话框这种形式,能用的场景很有限。
一旦进入现实世界里那些复杂多变的情况,模型再聪明也没法直接转化成实际操作,流程就卡在中间了,商业也就做不成闭环。
这就是为什么能进入手机操作界面的 Agent 和能在电脑桌面上干活的 Agent,开始受到大家的重视。
因为,它们不需要把所有系统都改造一遍才能用。

比如说吧,GUI Agent 通过看懂屏幕和控制操作,可以直接在现有的手机界面上工作。
从趋势来看,AI 的发展方向正在变。而要走到这一步,硬件基本上是绕不开的。
这也正是「AI + 终端」的底层逻辑之一。
按照这个思路,我们拿阶跃星辰举个例子,就能看出他们给出了一条比较清楚的路:
阶跃觉得AI+终端的终局,会是超级助理+跨端OS驱动的软硬件一体化方案。在具体落地上,用阶跃自己研发的大模型作为大脑,负责复杂的思考和判断,然后跟千里科技这些做终端设备和产业的伙伴合作,把这些能力放进实际的硬件和真实场景里去试。
这种做法,说白了就是「强模型 + 强终端」。
强模型负责想明白事情该怎么做。理解问题、拆分任务、做决定,这些都在模型层面搞定。
强终端负责把事情真正做出来。像手机、汽车这些我们天天用的设备,本身就在真实场景里运行,能不断产生反馈,再把结果传回给模型。
当这两部分配合起来,AI 就开始变成一个能长期运行、不断学习的系统了。
当然了,走这条路的也不只是阶跃一家。
很多做 AI 基础模型的厂商其实都会走向同一个方向:让 AI 真的进入现实世界,开始干具体的活。
在观察这场「AI + 终端」竞赛时,阶跃星辰这样的团队,是一个比较合适的观察样本:它的路径比较完整,走的也比较快。
真正的问题在于,怎么让 AI 在真实场景、真实的硬件终端里稳定运行?
阶跃星辰在这场竞赛中慢慢搭建出了一套「1+2」技术体系。
和常见的把视觉模型、语言模型简单拼在一起的做法不同,阶跃从成立时就看重原生多模态模型和理解生成一体化。这种设计的好处在于,模型在理解问题、做规划、再到执行动作之间的切换更顺畅,也更容易跟真实世界交互,也就是往 VLA 场景发展。
在基础模型这块,阶跃是国内少数几个训练过万亿参数模型的初创团队之一,也是唯一大规模投入自建AI Infra的。Step-3 推理模型在效率和性能上都比较平衡,在多项公开测试中表现也很稳定。因为在系统架构层面做了创新,Step 3 在国产芯片上的推理效率最高可达 DeepSeek-R1 的 300%,且对所有芯片友好,具有极高的实用性。
同时,在多模态和 VLA 方向,阶跃已经陆续推出了 30 个模型,能力覆盖得比较全面。
比如在语音、多模态理解和生成,还有 GUI 操作这些方向,其实已经能看到可以直接验证的模型形态了。语音是最普适化的人机交互模式,阶跃一直在探索前沿语音技术的上限,不久前其原生语音推理模型Step-Audio-R1.1在Aritificial Analysis Speech Reasoning 榜单上拿下全球第一。技术落地上,阶跃和吉利合作实现了业内首次端到端语音模型量产上车。
从整体看,这套「1+2」的结构,更像是在提前为长期使用和真实场景打基础。
在这样的逻辑下,AI 真正走向终端时,往往会先落在那些使用频率高、操作复杂、数据不断产生的设备上。
最经典的、也是最能在日常生活中有存在感的,就是:
手机和汽车。
当 AI 开始「像人一样」操作屏幕
如果说「AI + 终端」这套战略听起来还有些抽象,复杂的话,那么在手机端的实际体验中,这种变化已经变得非常直观。
首先,手机是离用户最近、使用频率最高的终端。
几乎所有有价值的行为,都集中在手机上。聊天、支付、看内容、出行安排、工作协同,基本都离不开手机。如果 AI 进不了手机,就很难真正参与用户每天的判断和操作。
更重要的是,手机本身已经很成熟了。
有完整的 App 体系,有系统级权限,有通知机制,也有清晰的输入和输出方式。GUI 已经很稳定,交互路径也很明确,甚至已经有庞大的保有量,这对 AI 来说,是现成就能用的环境。
在此前《十字路口》对阶跃星辰 Step-GUI 的实测中,我们看到了一种和以往 AI 不太一样的使用方式。它不再要求用户一步步点按钮、走流程,可以直接理解目标,然后自己完成操作。
比如,在我们的实测中,只需要一句话,就能让 Step-GUI 自主操纵手机,真实地根据任务要求,打开真实的软件 APP:
“帮我把快手极速版里的金币赚了,然后提现到微信。”

为了让这套方案真的跑起来,阶跃星辰走的是一条比较务实的架构路线,核心就是端云分工。
【1】端侧
在手机本地运行小模型,主要负责点击、滑动这类高频操作,同时处理和隐私相关的数据,保证响应速度,也让用户少一点「隐私焦虑」。
【2】云侧
把更复杂的判断、任务拆解和整体规划交给云端的大模型来做。
整套设计,说白了就是:简单、频繁、对时延敏感的事放在本地;复杂、需要全局判断的事交给云端。
这条路线并不是为了做展示。
根据公开信息,阶跃星辰的终端 Agent 调用量已经连续三个季度保持接近 170% 的增长。在实际落地上,他们已经和国内 60% 的主流手机厂商合作,包括 OPPO、荣耀、中兴 等,相关模型已经装进超过 4200 万台旗舰机,日均服务接近 2000 万人次。用户使用这些能力智能搜索、拍照问答、写朋友圈、生成个性化主题
这算是一份还不错的成绩单。
同时,这也意味着,很多用户其实已经在日常使用中,开始接触这种新的 AI 交互方式,只是未必意识到它已经变了。在很长一段时间里,手机的核心 PK 点都是硬件配置,但未来,用户选择的天平很可能会倾向于哪款手机有更强的 AI 体验。
汽车:AI 的下一个超级终端?
如果把视角从手机继续拉远,汽车几乎是 AI 最重要的下一个落点之一。
原因也很好理解。
汽车场景可以分为智能座舱和智能驾驶。和手机相比,汽车场景下的常用应用不到前者的十分之一,所以智能座舱的服务生态和体验可能会比手机更早被AI重构,而智能驾驶要面对的是更复杂的实时环境。路况在变,周围的人和车在动,对判断、规划和执行的要求都更高,而且一旦出问题,代价也更大。
也正因为这样,汽车天然就成了一个测试场景。
在这里,AI 要真的能判断、能做决定、还能把动作执行出来。这让汽车直接变成了检验 AI 是否真的具备行动能力的地方。
此前,「十字路口」团队参加了 千里科技 在重庆的发布会,我们看到一个很明显的变化,在那种路况复杂、情况很多的城市环境里,接入了阶跃大模型能力的智驾系统,整体表现更稳,决策节奏也更像一个开了很多年车的人。
当时有一个概念被反复提及:老司机感。

但对阶跃来说,汽车并不只能是自动驾驶的载体。
通过和千里科技、吉利汽车的深度合作,他们推的是一整套以 Agent 为核心的智能座舱方案。这里面有个关键点就是,这条路线之所以能成立,一个绕不开的因素是印奇直接下场了。

印奇同时站在模型公司和整车体系的核心位置,这一点在外部看来,比较关键。
它意味着模型能力怎么设计、系统架构怎么搭、能力在哪一层下沉,这些问题,可以从一开始就围绕同一套共创逻辑来展开。
统一的大模型,统一的系统架构,让 AI 从底层就参与到整车的运行逻辑中,真正做到软硬件结合,而不是按传统技术供应逻辑,把 AI 直接套上去。这对于汽车这种高度复杂的终端来说,差别确实还挺大的。
从结果看,这套体系已经开始进入规模化阶段。
相关的量产车型在持续上市,搭载阶跃大模型能力的车辆数量也在快速增加。车一多,真实的驾驶和使用数据就会不断回流。
这些数据直接来自真实路况和真实用户,模型在实际场景里的表现,会被反复校正和加强。久而久之,就会形成一个很清晰的正向循环:用得越多,数据越多,模型也就越接近真实世界的需求。
比如,吉利银河 M9 上市 3 个月左右,销量接近 4 万辆,并且已经开始进入海外市场。按照目前的节奏,今年阶跃大模型「上车」的规模,很可能会超过百万辆。
也正因为这样,对很多纯软件公司来说,汽车并不是一个容易切入的战场,这里拼的不只是模型好不好。
模型、系统和整车,能不能从第一天开始就跑在同一条线上,很重要。因为这场比赛,本身就是一个被拉得很长的过程。
也正是在这个前提下,阶跃星辰能走到现在,团队结构本身是一个很关键的因素。
如果简单概括,可以把这支团队理解成一个「1 + 3」的组合。
我们也专门梳理了相关背景。
「1」位产业操盘手:印奇。
他完整经历过 AI 从技术浪潮走向产业落地的过程。
作为千里科技的董事长,他一直在尝试打通 AI 比较难落地的场景,也就是汽车。作为关键先生,印奇把包括吉利在内的车圈资源跟阶跃连接在了一起。这为阶跃星辰推进「AI + 终端」提供了一个现实的点。

「3」位技术核心:
阶跃 CEO 姜大昕:作为阶跃 CEO,他曾任微软全球副总裁,长期在做搜索和 NLP 方向,对从底层数据到上层应用的完整技术链条非常熟悉。
阶跃首席科学家 张祥雨:作为 ResNet 论文作者之一,他的研究背景为团队在模型架构层面提供了一个比较稳的技术上限。
阶跃 CTO 朱亦博:负责系统方向,曾在字节跳动主导 AI Infra 相关工作,国内极少数有万卡训练经验的人
放在一起看,这套「1 + 3」的组合,刚好覆盖了从产业判断、模型能力,到系统工程和终端落地的几个关键的环节。
也正因为这样,阶跃星辰既有能力去做长期的基础模型,又能尝试把这些能力一步步推到真实产品和真实终端里。
🚥
过去很长一段时间内,大家都在说「AI + 终端」是一种尝试改变 AI 参与生活的方式。
在阶跃的设想中,这种未来的智能体验,可以由一整套体系支撑。
简单说,就是:
有负责理解和决策的多模态大模型,有能跑在不同设备上的 OS,还有一个在各种场景里持续工作的 Agent。
在这种结构下,AI 不再被关在某个 App 里,将会自然地分布在手机、汽车,以及更多终端设备上。
但这里也要把话说清楚。
大模型、OS 和 Agent 放在一起,并不会自动变成一条能赚钱、能持续运转的商业闭环,但的确有可能形成新的流量入口。
对所有做 AI 基础模型的厂商来说,这依然是一条需要靠时间、靠真实落地来验证的路,现在还没有现成答案。


