从 Pi0.5,再到 LingBot-VLA:一条具身智能的路正在成型

本文分析了具身智能领域的最新进展,重点聚焦蚂蚁灵波发布的 LingBot-VLA 通用大模型。该模型通过 2 万小时真实机器人数据训练,实现了对 9 种双臂配置的全面覆盖,解决了传统机器人开发中场景碎片化和硬件耦合度高的痛点。文章对比了硅谷标杆 Pi0.5,指出当前行业已从“单纯开源”转向“工程化底座”的竞争。LingBot-VLA 不仅在 RoboTwin 2.0 仿真基准上表现优异,还完整开源了训练工具链,旨在降低开发门槛。作者认为,随着硬件成本下降和通用模型成熟,具身智能正从想象阶段进入真实摩擦的产业化阶段,开源模型将成为推动行业标准化的关键力量。




2 万小时真实机器人数据训练的 VLA 基础模型,9 种双臂配置全覆盖。

loading

👦🏻 作者: 镜山

🥷 编辑: Koji

🧑‍🎨 排版: NCon

loading

从 2024 年被称为「人形机器人元年」开始,行业一直在等待一个像 ChatGPT 那样的突破性时刻。而具身智能,被普遍认为是 AI 的下一个关键方向

1 月 28 日,蚂蚁灵波开源了自己的具身智能通用大模型:LingBot-VLA。

不是论文展示,也不是 Demo 视频,代码、权重、训练和后训练工具链,一起放出来

这个时间点很有意思。就在 2 个月前,硅谷的 Physical Intelligence(PI)刚刚拿到 Alphabet 的 CapitalG 领投的 6 亿美元融资,他们开源的 Pi0.5 模型被圈内视为标杆,甚至被称为「具身智能 VLA 模型里的 OpenAI」。

loading

在 Pi0.5 之后,「VLA + 开源」这条路已经被验证过了。现在的问题只剩下一个:

你能不能交出一个,真能在真实机器人上反复跑的版本。

🚥

具身智能喊了这么多年,这次交出的结果到底处在什么水平?

蚂蚁灵波选择正面回答这个问题。

一旦东西真的被放出来,它就不再只接受赞美

具身智能这个词,其实已经喊了很多年。

早在 2016 年,谷歌就开始做机器人学习相关的研究。后来 DeepMind、OpenAI、Meta 都投入了大量资源。学术界更不用说,斯坦福、伯克利、CMU、清华、上海交大,每年发表的相关论文都非常非常多。

但很长一段时间里,大家做的事情都比较「碎」。

因为做机器人,一直有一个让人头疼的问题:每换一个场景,几乎就要从头再来。

从 Pi0.5,再到 LingBot-VLA:一条具身智能的路正在成型

比如你训练了一个机器人,让它学会在仓库里分拣快递。花了几个月,采集了几万条数据,终于训练好了,也能稳定运行了。然后甲方 or 负责人说:我们再做一个餐厅洗盘子的机器人吧。

你得重新采集数据、重新训练模型、重新调试参数。

所以你会发现,在这个行业里,大家都在不断重复做相似的事情。这种碎片化的状态,让整个行业的进展比预期慢了很多。这也是为什么具身智能喊了这么多年,真正大规模落地的应用依然很少。

正是在这样的背景下,行业里渐渐出现了一些变化:

开源的 VLA 模型(比如 Pi0.5)出现了,很多团队在此基础上快速适配具体场景。

2024 年 3 月,Physical Intelligence 正式成立。这家公司的创始团队配置非常豪华。

CEO Karol Hausman 曾是 DeepMind 的科学家,同时也是 Stanford University 教授;联合创始人 Sergey Levine 是强化学习领域的顶级学者,论文引用量超过 15 万次;另一位联合创始人 Chelsea Finn 同样是斯坦福的明星教授,Mobile ALOHA 机器人项目正是出自她的团队。

在 2024 年 3 月刚成立后第一个月他们就拿到了 7000 万美元的种子轮融资,领投的是 OpenAI 和红杉资本。8 个月后,又拿了 4 亿美元,估值干到 56 亿美元。

这个融资速度和金额,在早期机器人公司里几乎没见过。

2024 年 10 月,他们发布了 Pi0,一个真正意义上的通用机器人策略模型。几个月后又迭代到 Pi0.5,直接开源放了出来。

loading

这在行业里是一件大事。

GitHub 上的数据很能说明问题:π0.5 开源后,相关仓库的 Star 数在一周内突破了 5000,Fork 数超过 800(现在整个 Pi 开源项目,Star 达到了 9.9k)。开发者社区的热情是真实的。

loading

如果把时间往前拨两年,「开源具身模型」本身就足够成为新闻。那时候,大家的共识还停留在:只要有人愿意把模型开出来,本身就是一种勇气。

但现在不是了。

在 Pi0.5 之后,开源这件事本身,已经不再构成优势。

真正拉开差距的,是你交付的到底是什么。是一个论文可复现的模型?还是一个别人真的能拉下来、跑起来、改得动、用得上的工程底座

这是两种完全不同的开源。

过去,很多所谓的开源项目,更像是「技术态度展示」。结果看着不错,但换个机器人就失效。

Pi0.5 把具身模型开源这件事说的很明确:VLA 应该是个可以被工程化、被标准化、被二次开发的东西。

在这个前提下,再谈开源,标准自然会被抬高。你愿不愿意放出来,在 Pi0.5 之后,真的没那么重要了。

大家关心的是:

你放出来的,是不是已经经得起别人用、经得起别人批评。

是的,开源的标准也被卷起来了。

蚂蚁灵波这次开源 LingBot-VLA,正是发生在这个节点上。所以,这也是为什么,蚂蚁灵波此次开源被重视的原因:一部分人看 LingBot-VLA 能不能用,另一部分等着看这场「竞赛的好戏」。

原因很简单:一旦东西真的被放出来,它就不再只接受赞美。

代码会被拉下来跑。模型会被换本体测试。失败的 case 会被复现。性能的边界会被一点点摸清。

这时候,论文里的东西,就要进入现实世界了,在具身智能这种高度依赖真实世界反馈的领域,这种筛选会显得更直接一点。

从这个角度看,蚂蚁灵波选择在这个阶段把 LingBot-VLA 完整开源,算是主动「躬身入局」了。

模型好不好,不再由发布者自己说了算。它将会由使用它的人、改它的人、甚至被它「坑过」的人来决定。

这是一个非常硬的局面。但具身智能走到现在,恰恰需要这种硬度。因为具身智能最怕的,是每个人都在各自的封闭系统里重复试错

不过,这个局面至少能保证:输掉的路线,会输得足够快。而对一个还在早期阶段的行业来说,这已经是一种很难得的、很宝贵的效率提升。

最后,当只有一家公司做开源的时候,大家可能会观望:这条路到底行不行?会不会只是昙花一现?当不同国家、不同背景的团队都开始往这个方向走,说明这个趋势可能是真实的。

这有点像当年 Android 出现之后,智能手机行业发生的事情。在 Android 之前,做手机操作系统是一件门槛很高的事。Android 开源之后,大量厂商涌入,整个市场被激活了。

loading

当然,机器人行业和手机行业不完全一样。机器人的软硬件耦合更紧密,场景也更碎片化。但大方向可能是类似的:当基础能力变得可获取,创新会从底层转移到应用层。

蚂蚁灵波开始正面回答

在这样「卷」的背景下,在开源高精度空间感知模型 LingBot-Depth 之后,2025 年 1 月 27日,蚂蚁灵波开源了 LingBot-VLA。这个模型和 Pi0.5 的方向是一致的:都是通用模型,都能跨硬件、跨任务,都选择了开源。

从测试结果来看,LingBot-VLA 在一些真机任务上的表现已经和 Pi0.5 在同一水平线上,某些指标还有提升。但更重要的是这条路上又多了一个认真的参与者。

而且蚂蚁灵波做得相对更彻底一点点。

他们不仅开源了模型本身,还把代码、训练工具链全部放了出来。可以说,他们预设了这个模型一定会被别人拿去改、拿去用、拿去失败。

这是一种非常工程化、也非常现实的心态。

因为在今天的具身智能领域,真正有价值的开源,在于「你能在我这里少走多少弯路」。当开源开始承担这种角色,它就成为了一种筛选机制。

能跑通的,会被留下;跑不通的,会很快被淘汰。而这,恰恰是这个具身智能现在最需要的东西之一。

这是一个积极的信号。

接下来,我们先来看看,LingBot-VLA 的表现能不能「押得住」上面提到的开源标准。

长期以来,具身智能落地一直卡在一个问题上:不同类型的机器人,比如单臂的、双臂的、人形的,往往要分别收集数据、分别训练模型。

这种「一个机器人配一个专用模型」的做法,导致成本很高,但能力却没法在不同机器人之间共享使用。

LingBot-VLA 能做到「跨本体」,就是说同一个模型,可以用在单臂机器人、双臂机器人、人形机器人上,不用针对每种硬件单独训练。

他们用大约 2 万小时 的真实世界数据做预训练,覆盖了 9 种主流的机器人构型。即便在任务切换或环境发生变化时,模型依然能够保持较为稳定的成功率。

在 RoboTwin 2.0 仿真基准的 50 项任务场景里,Lingbot-VLA 操作成功率比 Pi0.5 提升了 9.92%。

loading

听起来很不错。但我们也要诚实地说,「通用」不等于「万能」。

举几个例子。

蚂蚁灵波展示过一个双臂机器人给透明玻璃瓶插花的视频。这个任务难度确实很高:玻璃是透明的,普通深度相机很难准确识别。

花枝是软的,力度不对就会弯折,瓶口很小,插第二枝花的时候可能还需要避开第一枝。

从 Pi0.5,再到 LingBot-VLA:一条具身智能的路正在成型

再比如说「餐具收纳」这个案例里,我注意到了一个很有意思的点,左侧机器臂拿起餐盘后,右侧机器臂会顺手压一些洗洁精进去,再拿抹布擦干净:

从 Pi0.5,再到 LingBot-VLA:一条具身智能的路正在成型

即便在更「细微」的场景里,比如说拿起玻璃杯,用刷子刷干净再放回收纳处:

从 Pi0.5,再到 LingBot-VLA:一条具身智能的路正在成型

像是下面这个,右侧机器臂卡住铅笔袋的一个边,左侧机器臂识别桌面上的物体放进铅笔袋里:

从 Pi0.5,再到 LingBot-VLA:一条具身智能的路正在成型

能做到这个程度,技术上确实有不小的突破。

除了性能,LingBot-VLA 在数据效率和算力效率上也有很明显的提升。比如说,要达到同样的任务成功率,它的训练效率达到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍。

但如果换一个场景呢?

这就是所谓的「长尾问题」。现实世界的场景是无穷无尽的,总会有一些情况是模型没见过的、处理不好的。

另一个问题是,从 Demo 到真正量产,中间还有很长的路要走。

我们对技术进步要有合理的预期。

通用开源模型确实是一个重要的方向,它可以大大降低开发门槛,让更多人能参与进来。但它不能解决所有问题。

比如特斯拉。马斯克的做法是软硬件一体,自己做机器人Optimus,自己做模型,自己做应用场景。这是闭环思路。

马斯克的计划是,用 Optimus 人形机器人去做特斯拉工厂的工作,所有的软硬件都自己搞定。他在 2024 年的股东大会上说,未来Optimus 的数量可能比人类还多。这是一个很宏大的愿景,能不能实现另说,但至少说明闭环路线也有自己的逻辑。

loading

当然了,Figure、波士顿动力这些公司,也都在走自己的路。

这两条路线没有对错,各有道理。

在很长一段时间里,开源和闭源、通用和专用可能会并存。

这也是为什么蚂蚁灵波不仅开源了模型,还开源了后训练的工具链。意思很明确:基础能力我给你了,但到了你自己的场景里,你还是要根据实际情况做适配。

这可能才是更务实的态度

做硬件的公司,可能会更多地拥抱开源模型。与其自己花几年时间做一个不一定比别人好的模型,不如用开源方案快速获得基础能力,把精力放在硬件差异化和场景落地上。

蚂蚁灵波已经和星海图、松灵这些机器人厂商做了合作验证,在仓储分拣、户外巡检等场景里跑通了。

做垂直应用的公司,可能会迎来一波机会。以前做机器人应用,要懂硬件、懂算法、懂场景,门槛很高。以后如果基础能力可以直接调用,做应用的门槛就会降低,会有更多人进入这个领域。

一张 2026 年年初的行业快照

在 2026 年 1 月这个时间点,如果要给具身智能行业拍一张快照,大概是这样的:

【1】硬件层面,人形机器人的成本正在快速下降。

宇树科技的 G1 定价不到 10 万人民币,智元机器人的远征 A1 也在往量产方向走,维他 VBOT 已经到了「千元机」。这些产品离真正好用还有距离,但至少 「有没有」 的问题正在被解决。

【2】模型开始被对比。

过去你很难判断一个模型「到底行不行」,因为每个人的数据、硬件、评测方式都不一样。

现在,随着 Pi0.5、LingBot-VLA 这类通用 VLA 模型的出现,行业有了可以被反复对照的 Benchmark。

大家终于开始在同一张试卷上答题。谁答得好,谁答得不好,很清楚,很直白。

你在接受大家「点赞」的同时,也要承受被「拉黑」的风险。这会很大程度上改变研究和工程的节奏。

【3】应用层面,一些垂直场景开始跑出来了。

仓储物流、工业制造、商业服务,这些领域已经有机器人在真正干活、创造价值。虽然离 「家家户户都有机器人」还很远,但至少不再只是实验室里的 Demo。

这张当下的行业切面,本身就说明了一件事:这个领域,已经从想象阶段,进入了真实摩擦阶段。

接下来发生的,不会那么快,也肯定不会那么「漂亮」,双手沾泥是必然的。

但它会更接近结果。

🚥

回到最开始的问题:谁会成为机器人时代的Android,或者说 OS?

老实说,现在回答这个问题还太早了。

以前大家觉得很难的事情(一个模型能用在不同的机器人上,能做不同的任务)现在开始有人做出来了,而且愿意开源出来让别人用。

这本身就是一个信号。

不管最后谁赢谁输,或者根本没有输赢,这场探索都会推动整个行业往前走一步。

就像蚂蚁灵波 CEO 朱兴说的:「具身智能要走向大规模应用,需要高效的具身基座模型,这决定了是否可用以及能否用得起」。

这句话没什么花哨的,但说的是很实在。

我们可以拭目以待。

loading




AI 前线

视频生成推理加速实践:基于 torch.compile 的整图编译优化

2026-1-31 19:08:31

AI 前线

深度|蚂蚁灵波上桌,不止“性能超越 Pi 0.5”,更是具身智能新分工时代

2026-1-31 19:08:37

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索