从 Pi0.5，再到 LingBot-VLA：一条具身智能的路正在成型

本文分析了具身智能领域的最新进展，重点聚焦蚂蚁灵波发布的 LingBot-VLA 通用大模型。该模型通过 2 万小时真实机器人数据训练，实现了对 9 种双臂配置的全面覆盖，解决了传统机器人开发中场景碎片化和硬件耦合度高的痛点。文章对比了硅谷标杆 Pi0.5，指出当前行业已从“单纯开源”转向“工程化底座”的竞争。LingBot-VLA 不仅在 RoboTwin 2.0 仿真基准上表现优异，还完整开源了训练工具链，旨在降低开发门槛。作者认为，随着硬件成本下降和通用模型成熟，具身智能正从想象阶段进入真实摩擦的产业化阶段，开源模型将成为推动行业标准化的关键力量。

2 万小时真实机器人数据训练的 VLA 基础模型，9 种双臂配置全覆盖。

👦🏻 作者: 镜山

🥷 编辑: Koji

🧑‍🎨 排版: NCon

从 2024 年被称为「人形机器人元年」开始，行业一直在等待一个像 ChatGPT 那样的突破性时刻。而具身智能，被普遍认为是 AI 的下一个关键方向。

1 月 28 日，蚂蚁灵波开源了自己的具身智能通用大模型：LingBot-VLA。

不是论文展示，也不是 Demo 视频，代码、权重、训练和后训练工具链，一起放出来。

这个时间点很有意思。就在 2 个月前，硅谷的 Physical Intelligence（PI）刚刚拿到 Alphabet 的 CapitalG 领投的 6 亿美元融资，他们开源的 Pi0.5 模型被圈内视为标杆，甚至被称为「具身智能 VLA 模型里的 OpenAI」。

在 Pi0.5 之后，「VLA + 开源」这条路已经被验证过了。现在的问题只剩下一个：

你能不能交出一个，真能在真实机器人上反复跑的版本。

🚥

具身智能喊了这么多年，这次交出的结果到底处在什么水平？

蚂蚁灵波选择正面回答这个问题。

一旦东西真的被放出来，它就不再只接受赞美

具身智能这个词，其实已经喊了很多年。

早在 2016 年，谷歌就开始做机器人学习相关的研究。后来 DeepMind、OpenAI、Meta 都投入了大量资源。学术界更不用说，斯坦福、伯克利、CMU、清华、上海交大，每年发表的相关论文都非常非常多。

但很长一段时间里，大家做的事情都比较「碎」。

因为做机器人，一直有一个让人头疼的问题：每换一个场景，几乎就要从头再来。

从 Pi0.5，再到 LingBot-VLA：一条具身智能的路正在成型

比如你训练了一个机器人，让它学会在仓库里分拣快递。花了几个月，采集了几万条数据，终于训练好了，也能稳定运行了。然后甲方 or 负责人说：我们再做一个餐厅洗盘子的机器人吧。

你得重新采集数据、重新训练模型、重新调试参数。

所以你会发现，在这个行业里，大家都在不断重复做相似的事情。这种碎片化的状态，让整个行业的进展比预期慢了很多。这也是为什么具身智能喊了这么多年，真正大规模落地的应用依然很少。

正是在这样的背景下，行业里渐渐出现了一些变化：

开源的 VLA 模型（比如 Pi0.5）出现了，很多团队在此基础上快速适配具体场景。

2024 年 3 月，Physical Intelligence 正式成立。这家公司的创始团队配置非常豪华。

CEO Karol Hausman 曾是 DeepMind 的科学家，同时也是 Stanford University 教授；联合创始人 Sergey Levine 是强化学习领域的顶级学者，论文引用量超过 15 万次；另一位联合创始人 Chelsea Finn 同样是斯坦福的明星教授，Mobile ALOHA 机器人项目正是出自她的团队。

在 2024 年 3 月刚成立后第一个月，他们就拿到了 7000 万美元的种子轮融资，领投的是 OpenAI 和红杉资本。8 个月后，又拿了 4 亿美元，估值干到 56 亿美元。

这个融资速度和金额，在早期机器人公司里几乎没见过。

2024 年 10 月，他们发布了 Pi0，一个真正意义上的通用机器人策略模型。几个月后又迭代到 Pi0.5，直接开源放了出来。

这在行业里是一件大事。

GitHub 上的数据很能说明问题：π0.5 开源后，相关仓库的 Star 数在一周内突破了 5000，Fork 数超过 800（现在整个 Pi 开源项目，Star 达到了 9.9k）。开发者社区的热情是真实的。

如果把时间往前拨两年，「开源具身模型」本身就足够成为新闻。那时候，大家的共识还停留在：只要有人愿意把模型开出来，本身就是一种勇气。

但现在不是了。

在 Pi0.5 之后，开源这件事本身，已经不再构成优势。

真正拉开差距的，是你交付的到底是什么。是一个论文可复现的模型？还是一个别人真的能拉下来、跑起来、改得动、用得上的工程底座？

这是两种完全不同的开源。

过去，很多所谓的开源项目，更像是「技术态度展示」。结果看着不错，但换个机器人就失效。

Pi0.5 把具身模型开源这件事说的很明确：VLA 应该是个可以被工程化、被标准化、被二次开发的东西。

在这个前提下，再谈开源，标准自然会被抬高。你愿不愿意放出来，在 Pi0.5 之后，真的没那么重要了。

大家关心的是：

你放出来的，是不是已经经得起别人用、经得起别人批评。

是的，开源的标准也被卷起来了。

蚂蚁灵波这次开源 LingBot-VLA，正是发生在这个节点上。所以，这也是为什么，蚂蚁灵波此次开源被重视的原因：一部分人看 LingBot-VLA 能不能用，另一部分等着看这场「竞赛的好戏」。

原因很简单：一旦东西真的被放出来，它就不再只接受赞美。

代码会被拉下来跑。模型会被换本体测试。失败的 case 会被复现。性能的边界会被一点点摸清。

这时候，论文里的东西，就要进入现实世界了，在具身智能这种高度依赖真实世界反馈的领域，这种筛选会显得更直接一点。

从这个角度看，蚂蚁灵波选择在这个阶段把 LingBot-VLA 完整开源，算是主动「躬身入局」了。

模型好不好，不再由发布者自己说了算。它将会由使用它的人、改它的人、甚至被它「坑过」的人来决定。

这是一个非常硬的局面。但具身智能走到现在，恰恰需要这种硬度。因为具身智能最怕的，是每个人都在各自的封闭系统里重复试错。

不过，这个局面至少能保证：输掉的路线，会输得足够快。而对一个还在早期阶段的行业来说，这已经是一种很难得的、很宝贵的效率提升。

最后，当只有一家公司做开源的时候，大家可能会观望：这条路到底行不行？会不会只是昙花一现？但当不同国家、不同背景的团队都开始往这个方向走，说明这个趋势可能是真实的。

这有点像当年 Android 出现之后，智能手机行业发生的事情。在 Android 之前，做手机操作系统是一件门槛很高的事。Android 开源之后，大量厂商涌入，整个市场被激活了。

当然，机器人行业和手机行业不完全一样。机器人的软硬件耦合更紧密，场景也更碎片化。但大方向可能是类似的：当基础能力变得可获取，创新会从底层转移到应用层。

蚂蚁灵波开始正面回答

在这样「卷」的背景下，在开源高精度空间感知模型 LingBot-Depth 之后，2025 年 1 月 27日，蚂蚁灵波开源了 LingBot-VLA。这个模型和 Pi0.5 的方向是一致的：都是通用模型，都能跨硬件、跨任务，都选择了开源。

从测试结果来看，LingBot-VLA 在一些真机任务上的表现已经和 Pi0.5 在同一水平线上，某些指标还有提升。但更重要的是这条路上又多了一个认真的参与者。

而且蚂蚁灵波做得相对更彻底一点点。

他们不仅开源了模型本身，还把代码、训练工具链全部放了出来。可以说，他们预设了这个模型一定会被别人拿去改、拿去用、拿去失败。

这是一种非常工程化、也非常现实的心态。

因为在今天的具身智能领域，真正有价值的开源，在于「你能在我这里少走多少弯路」。当开源开始承担这种角色，它就成为了一种筛选机制。

能跑通的，会被留下；跑不通的，会很快被淘汰。而这，恰恰是这个具身智能现在最需要的东西之一。

这是一个积极的信号。

接下来，我们先来看看，LingBot-VLA 的表现能不能「押得住」上面提到的开源标准。

长期以来，具身智能落地一直卡在一个问题上：不同类型的机器人，比如单臂的、双臂的、人形的，往往要分别收集数据、分别训练模型。

这种「一个机器人配一个专用模型」的做法，导致成本很高，但能力却没法在不同机器人之间共享使用。

LingBot-VLA 能做到「跨本体」，就是说同一个模型，可以用在单臂机器人、双臂机器人、人形机器人上，不用针对每种硬件单独训练。

他们用大约 2 万小时的真实世界数据做预训练，覆盖了 9 种主流的机器人构型。即便在任务切换或环境发生变化时，模型依然能够保持较为稳定的成功率。

在 RoboTwin 2.0 仿真基准的 50 项任务场景里，Lingbot-VLA 操作成功率比 Pi0.5 提升了 9.92%。

听起来很不错。但我们也要诚实地说，「通用」不等于「万能」。

举几个例子。

蚂蚁灵波展示过一个双臂机器人给透明玻璃瓶插花的视频。这个任务难度确实很高：玻璃是透明的，普通深度相机很难准确识别。

花枝是软的，力度不对就会弯折，瓶口很小，插第二枝花的时候可能还需要避开第一枝。

从 Pi0.5，再到 LingBot-VLA：一条具身智能的路正在成型

再比如说「餐具收纳」这个案例里，我注意到了一个很有意思的点，左侧机器臂拿起餐盘后，右侧机器臂会顺手压一些洗洁精进去，再拿抹布擦干净：

从 Pi0.5，再到 LingBot-VLA：一条具身智能的路正在成型

即便在更「细微」的场景里，比如说拿起玻璃杯，用刷子刷干净再放回收纳处：

从 Pi0.5，再到 LingBot-VLA：一条具身智能的路正在成型

像是下面这个，右侧机器臂卡住铅笔袋的一个边，左侧机器臂识别桌面上的物体放进铅笔袋里：

从 Pi0.5，再到 LingBot-VLA：一条具身智能的路正在成型

能做到这个程度，技术上确实有不小的突破。

除了性能，LingBot-VLA 在数据效率和算力效率上也有很明显的提升。比如说，要达到同样的任务成功率，它的训练效率达到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍。

但如果换一个场景呢？

这就是所谓的「长尾问题」。现实世界的场景是无穷无尽的，总会有一些情况是模型没见过的、处理不好的。

另一个问题是，从 Demo 到真正量产，中间还有很长的路要走。

我们对技术进步要有合理的预期。

通用开源模型确实是一个重要的方向，它可以大大降低开发门槛，让更多人能参与进来。但它不能解决所有问题。

比如特斯拉。马斯克的做法是软硬件一体，自己做机器人Optimus，自己做模型，自己做应用场景。这是闭环思路。

马斯克的计划是，用 Optimus 人形机器人去做特斯拉工厂的工作，所有的软硬件都自己搞定。他在 2024 年的股东大会上说，未来Optimus 的数量可能比人类还多。这是一个很宏大的愿景，能不能实现另说，但至少说明闭环路线也有自己的逻辑。

当然了，Figure、波士顿动力这些公司，也都在走自己的路。

这两条路线没有对错，各有道理。

在很长一段时间里，开源和闭源、通用和专用可能会并存。

这也是为什么蚂蚁灵波不仅开源了模型，还开源了后训练的工具链。意思很明确：基础能力我给你了，但到了你自己的场景里，你还是要根据实际情况做适配。

这可能才是更务实的态度。

做硬件的公司，可能会更多地拥抱开源模型。与其自己花几年时间做一个不一定比别人好的模型，不如用开源方案快速获得基础能力，把精力放在硬件差异化和场景落地上。

蚂蚁灵波已经和星海图、松灵这些机器人厂商做了合作验证，在仓储分拣、户外巡检等场景里跑通了。

做垂直应用的公司，可能会迎来一波机会。以前做机器人应用，要懂硬件、懂算法、懂场景，门槛很高。以后如果基础能力可以直接调用，做应用的门槛就会降低，会有更多人进入这个领域。

一张 2026 年年初的行业快照

在 2026 年 1 月这个时间点，如果要给具身智能行业拍一张快照，大概是这样的：

【1】硬件层面，人形机器人的成本正在快速下降。

宇树科技的 G1 定价不到 10 万人民币，智元机器人的远征 A1 也在往量产方向走，维他 VBOT 已经到了「千元机」。这些产品离真正好用还有距离，但至少「有没有」的问题正在被解决。

【2】模型开始被对比。

过去你很难判断一个模型「到底行不行」，因为每个人的数据、硬件、评测方式都不一样。

现在，随着 Pi0.5、LingBot-VLA 这类通用 VLA 模型的出现，行业有了可以被反复对照的 Benchmark。

大家终于开始在同一张试卷上答题。谁答得好，谁答得不好，很清楚，很直白。

你在接受大家「点赞」的同时，也要承受被「拉黑」的风险。这会很大程度上改变研究和工程的节奏。

【3】应用层面，一些垂直场景开始跑出来了。

仓储物流、工业制造、商业服务，这些领域已经有机器人在真正干活、创造价值。虽然离「家家户户都有机器人」还很远，但至少不再只是实验室里的 Demo。

这张当下的行业切面，本身就说明了一件事：这个领域，已经从想象阶段，进入了真实摩擦阶段。

接下来发生的，不会那么快，也肯定不会那么「漂亮」，双手沾泥是必然的。

但它会更接近结果。

🚥

回到最开始的问题：谁会成为机器人时代的Android，或者说 OS？

老实说，现在回答这个问题还太早了。

以前大家觉得很难的事情（一个模型能用在不同的机器人上，能做不同的任务）现在开始有人做出来了，而且愿意开源出来让别人用。

这本身就是一个信号。

不管最后谁赢谁输，或者根本没有输赢，这场探索都会推动整个行业往前走一步。

就像蚂蚁灵波 CEO 朱兴说的：「具身智能要走向大规模应用，需要高效的具身基座模型，这决定了是否可用以及能否用得起」。

这句话没什么花哨的，但说的是很实在。

我们可以拭目以待。

{{userData.name}}已认证

从 Pi0.5，再到 LingBot-VLA：一条具身智能的路正在成型

🚥

一旦东西真的被放出来，它就不再只接受赞美

蚂蚁灵波开始正面回答

一张 2026 年年初的行业快照

🚥

视频生成推理加速实践：基于 torch.compile 的整图编译优化

深度｜蚂蚁灵波上桌，不止“性能超越 Pi 0.5”，更是具身智能新分工时代

MLNLP 发布 GPUWatchdog：在集群里自动帮你看显卡的小助手

Agent Factory：Agentic AI 的新纪元 - 常见用例和设计模式

万字长文：重构软件工程迷思，搞懂需求与产品思维

豆包最强 AI 修图模型来了！动嘴就能精准 P 图，扣子开源版上线，还搞定同声传译

从 o1-mini 到 DeepSeek-R1，万字长文带你读懂推理模型的历史与技术

【第 3643 期】从零理解富文本编辑器：现代编辑器的核心原理与实现思路