开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

国产具身智能基座模型，再次突破！

RoboChallenge真机评测榜单上，来自自变量机器人的端到端具身智能基础模型WALL-OSS，以总分54.69、成功率35.33%的成绩，超越美国具身智能明星公司PhysicalIntelligence的pi0（π0），排名全球第二。

在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒、开瓶器进抽屉等多个单任务中，WALL-OSS均拿下单项第一

要知道，这可不是一场普通的测试。

RoboChallenge由Dexmal原力灵机联合HuggingFace发起，是首个在真实物理环境中，由真实机器人执行操作的大规模、多任务基准测试。

与LLM测评不同，具身模型测评更像是一场“开卷考”，任务描述和场景环境都是提前公开的。

参赛方无需提交模型权重，只需提供可驱动机器人的算法；最终，平台通过统一的真机执行，以动作视频和任务完成率作为评分依据。

格外关键的是，WALL-OSS是一个开源模型

相较于闭源模型的测评结果存在较大操作空间（其性能可能源于对第三方模型的微调、接口层的特殊适配，或者存在黑箱内的未公开优化），模型本身的原生能力不容易被外界验证，开源模型的成绩建立在完全透明的代码与参数之上，其能力可被任何研究者复现、检验和深入研究

而且，WALL-OSS的开源程度也相当彻底：不仅开放了预训练模型权重、完整训练代码和数据集接口，甚至还提供了详尽的部署文档。仅需RTX4090级别的消费级显卡，就可以完成从训练到推理部署的完整流程。

另外，当前榜单前三名，包括pi0、pi0.5，也都是来自开源体系

具身智能的前沿发展，正在由开源模型共同推动向前。

“机器人脑”物理世界大PK

下面先具体来看WALL-OSS在测试中的实际表现。

RoboChallenge首发的Table30任务集，包含30个真实日常操作任务，而在行业常见的真机评测中，任务数量通常只有3–5个。

该任务集从四个维度构建评估体系：VLA方案难点、机器人类型、任务场景环境、目标物体属性，覆盖了具身模型在真实世界中可能遇到的多样复杂情况。

以难度较高的“叠抹布”任务为例，WALL-OSS目前位列该单项第一。

在该任务中，WALL-OSS以41分的成绩领先pi0。尽管其任务成功率仍只有10%，但已是当前所有参赛模型中的最优表现；相比之下，pi0在该任务中的成功率为0%，仅获得部分步骤分。

RoboChallenge平台集成了UR5、FrankaPanda、Aloha、ARX-5等多款主流机器人，用于远程真机评测。

并且，其公开了所有任务演示数据及测试中间结果，所有人都能看到机器人执行任务的全过程监控记录。

打开任务执行详情，可以看到左侧上方是多视角视频画面，展示了任务现场的实际场景，能直观看到机器人的操作过程

右侧上方的arm图表，记录了机械臂6个关节（joint1–joint6）的角度变化，曲线波动对应关节运动；右侧下方的arm_gripper图表，则记录了夹爪的开合状态。

最右侧信息栏则展示任务ID、执行时长等基础信息。

底部时间轴可以精准定位某一时刻，同步查看该时间点的视频画面与机械臂/夹爪状态，快速找到动作异常的环节。

从公开视频中可以看到，WALL-OSS成功完成了抹布的一次抓取与对折操作：

在相对简单一些的“连续按下三个按钮”任务中，WALL-OSS的优势更加明显，得分显著领先其它模型。

实际操作belike（以下展示均为加速画面）：

在“将不同形状杂物收纳至筐中”的任务里，WALL-OSS同样表现稳定：

该任务中，无论是得分还是成功率，WALL-OSS都高于pi0。

在“拉开抽屉并放入杂物”等需要连续规划与空间判断的任务中，也能看到其完整完成操作流程：

值得一提的是，RoboChallenge的真机测试规则本身并未限制模型进行针对性优化或微调。开发者可以使用官方提供的任务示范数据对模型进行训练。

模型训练完成后，需对接平台标准化API。平台提供统一的框架代码，参赛方仅需补充自身逻辑，确保模型实现观察-推理-停止的完整交互闭环，并可通过模拟测试进行验证。

评估请求进入人工调度队列后，任务将在真实场景中执行，最终结果由平台自动发布。

也正是在这样的规则下，开源模型的成绩，含金量才显得尤为突出。

目前，自变量团队已表示，WALL-OSS提交的复现结果示例，微调代码和模型权重也将在近期全部开源。除检验测试结果的真实性，开发者们也可以在平台上根据源代码和各个任务的微调代码，结合自己的数据完成复现微调。

接下来问题来了，WALL-OSS是如何做到的？

拆解背后技术突破

在模型的具体实现层面，官方已发布技术报告，对WALL-OSS的设计思路与训练路径进行了系统披露。