作者 | 华卫
本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。
我们采访了真机智能董事长兼首席科学家刘智勇,听他讲述了视觉语言导航(VLN)技术的当前难题、具身智能领域在 2025 年的各类进展以及今年在能力边界上的两个突破方向和技术决胜点。他表示,一旦世界模型的因果推理能力取得突破,无论是机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。
“2026 年本体厂商肯定会收缩,估计中国最终只会剩下 5 到 8 家本体机器人公司。”他指出,核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。但单纯的整机销售并非很好的商业模式,如果只卖硬件,后续的售后压力会非常大,用户一次性付太多钱也承受不了。
下面是详细对话内容,以飨读者。
VLN 和世界模型上“大分”
Q:2025 年具身智能领域有哪些突破性进展让您印象深刻,包括技术、产业化和生态建设上?这些进展是否已经为具身智能从实验室走向特定场景的“初步普及”奠定了基础?
刘智勇: 我印象比较深刻的是 VLN 方向的相关进展。过去我们主要是以 SLAM 为核心的技术路线,但从去年到现在,涌现出了大量基于视觉语言作为多模态输入的导航模型。这种视觉语言模型能解决零样本泛化的问题,我们不再需要预先构建地图了。把一个机器人放到任何全新的固定场景里,它都能实现零样本泛化,自主完成导航任务。另外,像 UniNavid、ETPNav、FSR - VLN 这些代表性工作,也让机器人门到门配送的实现出现了曙光和可能性。这就是从几何测量的导航范式,转变到学习增强的导航范式。当前的瓶颈在于未达极高的导航成功率。
从场景普及的角度来说,核心是我们不再需要预先建图了。这就意味着,把机器人放在任何新的位置上,它都能立刻开始工作,直接解锁了很多之前无法覆盖的场景。最关键的一点是,零样本能力等同于部署成本的大幅降低。部署成本降下来之后,整个成本结构就能适配场景化的盈利模式,这正是为场景普及奠定的核心基础。技术成熟后,前期的准备和部署工作会大幅减少,这也为未来的产业发展打下了很好的基础。
Q:具身智能的核心技术栈正在如何演变?2025 年这一年有哪些值得关注的新范式或共识?
刘智勇: 从算法角度来看,核心变化是从之前感知、决策、执行分离的多模块化范式,逐渐转向 VLN 或 VLA 的端到端统一范式。从数据角度来说,发展方向是从单纯的真实数据采集,逐步转向合成数据、离线轨迹挖掘以及世界模型这些领域。训练范式也发生了改变,从强化学习调参慢慢转向世界模型驱动。现在世界模型算是行业内解决数据问题的一个共识,原因很简单,不管是在长程层面模拟预测未来状态、在底层层面预测动态物体轨迹,还是弥补数据的 corner case,世界模型都起到了不可或缺的作用。
Q:世界模型被寄予厚望,被认为是实现高级推理和规划的关键。现阶段来看,它对机器人实际能力的提升体现在何处?之后还有哪些方面的潜力?
刘智勇: 现阶段来看,主要体现在三个方面。第一,机器人执行长程任务时容易陷入短视困境,而世界模型可以模拟未来的长程状态,对全局规划能力有非常重要的提升;第二,动态环境下静态地图容易失效,无法准确指引路径轨迹,世界模型能够预测动态物体的轨迹,让机器人的本地行动更安全;第三,世界模型能较好地生成相关数据,减少数据泛化鸿沟。我们认为,世界模型是 VLN 突破长程规划和动态适应瓶颈的充分非必要条件。但现在世界模型的主要问题是黑盒,而非白盒可微。
Q:大模型的快速发展,为具身智能的“智能”部分带来了哪些质变?
刘智勇: 从我们的实践来看,最核心的变化是导航和路径规划的技术范式发生了转变。过去我们采用的是 SLAM 方案,现在则转向了 VLN 范式。过去的 SLAM 方案存在几个明显的局限,一是方案本身不具备语义理解能力,二是依赖静态地图,必须预先建图才能使用,三是需要对特定的传感器做专门标定。而 VLN 范式完全不同,它可以结合语言和视觉实现语义层面的理解,同时能应对非静态环境,实现动态适配。更关键的是,这个方案不再依赖高规格的激光雷达,也不需要预先部署地图,成本和效率都实现了大幅优化。大模型的快速发展,推动技术范式从几何测量的 SLAM 转向学习增强的 VLN,这正是带来质变的核心原因。行动、观测和语言本来属于三个空间,现在要把三个空间统一起来,这也是目前的核心难点。
大规模落地现在卡在哪儿?
Q:几乎所有专家都指出,高质量、大规模的物理交互数据稀缺是当前最大瓶颈。面对真实数据采集成本高昂的困境,仿真合成数据、人类视频数据等替代方案能走多远?“数据工厂”是可行的解决方案吗?
刘智勇: 我们面临的主要数据瓶颈有两个,一是数据的场景覆盖不足,比如现在常用的数据集大多基于 Mate Port 3D、Habitat、AI2THOR 等 构建,只包含 固定的训练环境,场景覆盖肯定不够;二是做 VLN 的数据采集成本很高,有时需要 3D 数据采集,标注成本也比 2D 图像高出一个量级。对 VLN 来说,现在数据是完全不足的,既存在场景覆盖问题,又有成本高昂的问题。
目前,我们在采用多种数据解决方案。第一是采集真实数据,采集 RGBD 视频流,以及数字手套等,再结合人工标注指令,像 Atomic 和一些基准数据集的主要来源就是真机数据。第二是比较常见的用仿真器生成,比如借助模拟器搭载 3D 场景库,批量生成视觉语言轨迹三元组。第三是采用 新范式,不用额外改动 3D 环境,通过改写人类标注数据的方式生成新样本,这是一种静态片段生成的新范式。另外,未来还有一种发展方向是离线数据、离线轨迹挖掘的方式,有点类似实行微克隆。
Q:当前的硬件如灵巧手、关节驱动、传感器等,在哪些方面最能满足机器人的技术需求?又在哪些方面构成了发展的主要制约?
刘智勇: 要讲满足技术需求的地方,我们可以和轮式机器人做个比较。之前的轮式机器人只能移动到楼下,没办法开单元门、摁电梯,只能在楼下送货或者在室内移动。而现在的灵巧手、一体化关节,再加上一些触觉传感器,能让机器人具备开门、按电梯的能力,这是轮式机器人到人形机器人的一个巨大转变。
不过目前硬件也存在几方面的制约。第一,我们还需要高分辨率的柔性触觉皮肤。因为机器人需要用机械灵巧手摁电梯,如果触觉不够灵敏,盲按的波动率大,成功率就会比较低。第二,门把手的种类太多了,如果机器人没有触觉反馈,根本没办法应对成千上万种门的情况,也很难实现场景泛化。再就是机器人要进行成千上万次的反复操作,电机、执行器、丝杠这些部件的脆弱性,可能在我们的应用场景中被放大 100 倍。所以从硬件角度来讲,目前主要的制约就是开门要做得好、触觉要做得好这两点。
Q:目前为止,制约具身智能大规模落地应用难题还有哪些?
刘智勇: 对于我们的 VLN 技术来说,主要有两方面的难题。第一是感知决策的延迟问题,这甚至可能是致命的。简单来说,长程规划和行动频率的匹配很关键,如果感知和决策环节出现延迟,机器人在开放环境中运作就会遇到很多麻烦,这就要求必须在端侧做好部署。第二是硬件性能短板,既要让硬件能灵敏地感知外部世界,又要保证它能反复进行操作,而目前这类硬件的耐疲劳性、反脆弱性能还不够强。对于世界模型来说,核心瓶颈是隐式神经表征,而非显式 3D 高斯,可能在开门和按键上缺少精准几何信息。
具身智能该告别 “一锤子买卖”?
Q:面对这样的机遇与挑战,您们在接下来一年的战略重点和核心发力方向是什么?
刘智勇: 真机智能其实分成了北京真机和苏州真机两个公司。北京真机关注的还是比较传统的 SLAM 加轮式机器人的技术栈和方案,苏州真机则聚焦于 VLN 加人形机器人的技术栈及方案。
苏州真机接下来有两个关注重点,第一是通过视觉语言导航的方式,实现无需额外提前部署的门到门配送。过去部署成本太高了,大概占了整个机器人售价成本的 38% 左右。我们希望能实现零样本泛化,换句话说,就是让机器人能够直接理解环境,直接完成导航任务。第二是全身运动控制,要解决的核心问题是开门。之前的控制是基于机器人静态的假设来实现的,哪怕是协作机器人也是保持自身不动去拉开门,这种方式需要的扭矩非常大。我们希望通过全身控制打破静态平衡的限制,依靠动态平衡的方法更泛化地解决开门的问题。
把这两个点结合起来,我们既能实现无需预先建图的门到门配送任务,同时又能解决开门和按电梯的任务。这两个方案结合之后,就可以实现最后五公里的门到门配送,既能开门、操作电梯,又能以无建图、无 GPS 的方式完成导航。室内本身没有 GPS 信号,但又需要实现导航,这时候视觉和语言理解的作用就非常关键了。
Q:除了直接销售机器人整机,具身智能未来的商业模式可能有哪些创新?
刘智勇: 整机销售和租赁这两种方式都会存在。但我个人觉得,单纯的整机销售并不是很好的商业模式,更好的方式是 “整机销售 + 每年服务费” 的组合模式。如果只卖硬件,一次性卖完其实很亏,后续的售后压力会非常大。“整机销售 + 每年服务费” 就比较合理,既能保证长期的最大收益,又能解决售后问题,还能让设备商一次性回本。通过这种组合模式,能把原本不赚钱的 “卖铁生意”,变成能持续盈利的长期现金流生意。另一方面,用户一次性付太多钱确实承受不了。
除此之外,未来还可能出现按单收费的商业模式。比如人形配送机器人测算下来每单成本能控制在两到三元人民币,和达达这类上游公司合作,机器人完成一单就赚一笔费用。
本体厂商大收缩,要拼什么?
Q:到 2026 年,我们有望看到具身智能在能力边界上实现怎样的突破?整个具身智能领域的技术决胜点可能会是什么方面?
刘智勇:2026 年可能会有两个关键突破方向。第一是机器人在非结构化场景中实现稳定作业。要做到这一点,需要机器人具备一定的社交行为表现和自主导航能力。解决了之后,一些之前没想到的非结构化环境下的任务机器人也可能完成了。目前行业内大多还聚焦在结构化环境,所以这会是一个重要突破。第二是突破莫拉维克悖论(Moravec's Paradox)。以往大家觉得,机器能完成人类觉得难的事,但难以完成人类觉得简单的事,而 2026 年可能机器人也能胜任这类任务,会在人类觉得简单的事情上取得突破。
至于技术决胜点,我认为有几个关键因素,其中最重要的是世界模型的因果推理能力。一旦这项能力取得突破,无论是机器人的安全性还是行为和推理的安全性问题,都能得到很好的解决。
Q:2026 年,全球具身智能公司的竞争情况将如何变化?中国公司与国际巨头各自的优势和赛点分别会在哪里?
刘智勇:2026 年本体厂商肯定会收缩,马太效应会非常明显,估计中国最终只会剩下 5 到 8 家本体机器人公司。不过应用场景相关的公司和上游企业会多一些。
中国和国际企业的优势不一样,国际公司的大模型技术更先进,基础模型能力更强,国内企业还处在追赶状态,但中国企业拥有供应链成本优势。另外竞争维度也在升级,现在大家可能还在追求单点技术的先进性,到了 2026 年,整体系统的效率会变得更重要。
至于赛点,我觉得核心是在某个单一场景实现盈利,不是毛利而是不依赖大量售后成本的净利。谁能做到这一点,谁就能形成数据飞轮,有了数据之后,模型和方法能力会进一步提升,之后再推进跨场景复制。
