深度|蚂蚁灵波上桌,不止“性能超越 Pi 0.5”,更是具身智能新分工时代

文章深度解析了蚂蚁集团旗下灵波科技开源的具身大模型 LingBot-VLA 及其全链路后训练工具链。针对具身智能领域硬件异构、算法孤岛等结构性矛盾,灵波科技通过开源高性能基座模型,实现了在真实物理环境(GM-100 基准)中超越 Pi0.5 的操作成功率。该模型具备强大的跨本体泛化能力,能处理非刚性物体及复杂材质,且数据效率极高(仅需 80 条演示数据即可迁移)。更重要的是,灵波科技通过“授人以渔”式的全链路开源,降低了中小团队的研发门槛,旨在将具身智能产业从“全栈自研”引向“专业化分工”的新阶段。




深度|蚂蚁灵波上桌,不止“性能超越 Pi 0.5”,更是具身智能新分工时代

01 引言:一个“基座”的到来

具身智能的赛道上,一直存在一个近乎无解的结构性矛盾。机器人硬件、作业场景与底层系统的严重异构,导致算法模型几乎无法规模化复用,形成一个个算法孤岛。

这迫使绝大多数公司陷入全栈自研的模式,从硬件到算法再到数据,无一不包。这是一种无奈之举。高昂的成本和漫长的研发周期,最终拖慢了整个产业的规模化脚步。

2026年1月28日,蚂蚁集团旗下灵波科技宣布开源其具身大模型LingBot-VLA及全链路工具链。这一动作,为行业提供了一个新的可能性:一个高性能、可落地的智能基座

灵波科技的定位也十分清晰,他们不下场造硬件,选择成为智能层的赋能者。这个全链路开源的基座模型,技术成色究竟如何?它的出现,又将给那些仍在全栈研发泥潭中挣扎的具身智能公司和团队,带来什么实质性的改变?

02  解构LingBot-VLA:一个基座的能力剖面

性能基准:真实世界中的操作成功率

在具身智能领域,模型在真实物理环境中的表现是检验其价值的最终标准。LingBot-VLA在设计上对标行业公认的参照基准之一——Pi0.5模型。

在上海交通大学开源的具身评测基准 GM-100(包含 100 项真实操作任务)测试中,LingBot-VLA 在 3 个不同的真实机器人平台上,跨本体泛化平均成功率相较于 Pi0.5 的 13.0% 提升至 15.7%(w/o Depth)。引入深度信息(w/ Depth)后,空间感知能力增强,平均成功率进一步攀升至 17.3%,刷新了真机评测的成功率纪录,验证了其在真实场景中的性能优势。

深度|蚂蚁灵波上桌,不止“性能超越 Pi 0.5”,更是具身智能新分工时代

在 GM-100 真机评测中,LingBot-VLA 跨本体泛化性能超越 Pi0.5 

在 RoboTwin 2.0 仿真基准(包含50项任务)评测中,面对高强度的环境随机化干扰(如光照、杂物、高度扰动),LingBot-VLA 凭借独特的可学习查询对齐机制,高度融合深度信息,操作成功率比 Pi0.5 提升了 9.92%

深度|蚂蚁灵波上桌,不止“性能超越 Pi 0.5”,更是具身智能新分工时代

在 RoboTwin 2.0 仿真评测中,LingBot-VLA 跨任务泛化性能超越 Pi0.5

这个结果在一定程度上验证了该模型在解决仿真到现实(Sim-to-Real)的差距问题上达到了一个有效水平,具备了在复杂物理环境中执行任务的可靠性。这是任何模型从实验室走向产业应用的技术前提。

LingBot-VLA的性能提升,离不开其技术栈的另一大特点:与高精度空间感知模型LingBot-Depth的协同。

简单来说,LingBot-Depth为VLA模型提供了高质量的3D深度信息(Depth Token),让机器人不仅能看到图像,更能精准理解物体的空间位置、距离和几何形状。这种深度的融合让VLA真正做到了看得更清楚,从而在执行抓取、插入等精细操作时能够做得更明白。

这一标准化的“感知-决策”接口,也为硬件厂商提供了清晰的集成路径,使其能更专注于硬件本身的创新与打磨,而不必在复杂的3D感知算法上重复造轮子。

泛化能力:应对非标任务与多构型硬件

基础性能只是入场券。一个基座模型的价值上限,终究取决于它的泛化能力——能否驾驭多变的场景,适配迥异的硬件。

LingBot-VLA用两个有代表性的任务,回应了这个问题。

第一类是处理非刚性物体。比如为软塌塌的化妆包拉上拉链。柔性物体的交互一直是行业难题。它的形态实时变化,要求模型不仅要看懂,更要预判物理动态,并执行长序列的精细力控。

物品收纳   视频来源:蚂蚁灵波

第二类是应对特殊材质与多硬件构型。比如用双臂机器人擦拭透明玻璃杯。这里的挑战是双重的。首先,透明和反光表面本就是机器视觉的传统盲区。其次,在双臂机器人上成功运行,直接验证了算法与不同硬件构型的解耦,也就是所谓的跨本体能力。这两个问题,都是阻碍产业规模化落地的普遍障碍。

玻璃杯清洁  视频来源:蚂蚁灵波

训练效率:对研发成本与迭代周期的影响

对于开发者和企业而言,模型的训练效率直接关联到研发成本与产品迭代速度。LingBot-VLA在这方面实现了两大突破:

首先,其数据效率极高。得益于强大的基座能力,开发者仅需采集 80条 左右的演示数据,即可在自有场景中实现高质量的任务迁移。这极大地降低了数据采集与标注的门槛,直观地体现了其成本优势。

其次,其训练效率本身也经过了深度工程优化。配合开源的全套代码库,其后训练效率是StarVLA、OpenPI等主流开源框架的1.5至2.8倍。

训练效率的提升,直接意味着算力成本的降低和研发迭代速度的加快。在商业化探索的早期阶段,更低的试错成本和更快的场景验证能力,对任何试图进入该领域的团队都至关重要。这构成了LingBot-VLA作为开源方案,吸引开发者生态的核心价值之一。

03 不止于模型,也是全链路开源

开源模型权重,在产业界早已不是新鲜事。但开发者拿到手的,往往是一个无法触碰的黑盒。想要适配自己的硬件,用自己的数据做微调,却发现无从下手。缺乏配套工具链,后续的适配工作几乎是一项不可能完成的任务。

灵波这次,是一种近乎授人以渔的开放。

它开源的,不只是最终的模型权重。它同步开源了支撑模型训练、优化、部署的整套代码与后训练工具链。这套工具链包括了数据处理脚本、与主流模拟器的接口、可复现的训练代码、以及在真实机器人上进行微调和部署的详细指引。

这种“授人以渔”的开放模式,结合前文提到的极低数据需求,意味着中小团队甚至个人开发者都有可能跨过高昂的数据和算力门槛,参与到生态创新中。这为具身智能产业真正走向专业化分工提供了现实基础。

当高昂的数据和算力门槛被大幅拉低,中小团队甚至个人开发者,终于有机会真正参与到这场游戏中。具身智能产业走向专业化分工,似乎第一次有了现实的落脚点。

这种开放程度,可能改变行业内现有的研发协作模式。开发,不再是各家闭门造车的黑盒探索。一个可复现、可优化的公共基座,让协同创新成为可能。

04 分工的可能:当“全栈自研”不再是唯一路径

当一个可用的、开放的智能基座进入市场,产业的竞争逻辑,必然生变。

专业化分工,这个在具身智能领域被探讨了多年的概念,终于从理论变成了现实选项。过去,全栈自研是绝大多数公司的唯一路径,一种别无选择的沉重模式。LingBot-VLA的出现,或许将打破这个局面。

这对棋盘上的各类玩家,都意味着全新的机遇。

对于那些已在全栈研发道路上投入巨资的公司,现在获得了一个宝贵的战略选项。他们可以将宝贵的研发资源,从重复构建底层通用模型的泥潭中解放出来,转而聚焦于自己真正的护城河。比如,打造具备颠覆性优势的硬件构型;将某个特定工业场景的工艺know-how做到极致;或是为细分市场提供无可替代的端到端解决方案。通用智能由基座模型提供,他们则在此之上,构建更深、更专业的价值。

对于硬件厂商和系统集成商而言,获取先进AI能力的门槛,被大大降低了。他们不再需要从零开始,组建一个庞大而昂贵的算法团队来启动智能化进程。现在,他们可以直接站在开源模型的肩膀上,将全部精力投入到产品打磨、客户理解和市场开拓中去。这无疑将大幅缩短产品智能化升级的周期和成本。

灵波的上桌,并未挤压现有玩家。它为棋盘上的所有玩家,都创造了新的价值空间。

更重要的是,这个赋能者的角色必须是可信的。背靠蚂蚁集团在人工智能领域的长期投入、强大的工程化能力和对长期主义的坚持,使得LingBot-VLA这个项目具备了稳定迭代、持续优化的保障。其本土化的团队背景和彻底的开源策略,也更容易获得国内产业界的信任和接纳。

企业在选择一个技术基座时,最看重的就是其稳定性和生命力。蚂蚁灵波,恰恰提供了这种确定性。

05 议题已上台面

蚂蚁灵波开源LingBot-VLA,为具身智能产业带来了一个新变量。它直接降低了技术门槛,提供了一个高性能的开源工具。

更重要的,是它将专业化分工这个议题推向了前台。LingBot-VLA的出现,可以看作国内具身智能产业的一个分水岭。行业的重心,可能从此由如何构建模型,转向如何应用模型创造价值。

这场转变能走多远,取决于基座的后续迭代,社区生态的活跃度,以及每一个产业参与者的战略选择。结果并非必然,但可能性已经出现。

References:


AI 前线

从 Pi0.5,再到 LingBot-VLA:一条具身智能的路正在成型

2026-1-31 19:08:34

AI 前线

速递|高通 800 万美元投资 AI 合同审阅平台 SpotDraft,可完全离线处理数据,半年内估值翻倍

2026-1-31 19:08:39

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索