国产具身智能基座模型,再次突破!
    RoboChallenge真机评测榜单上,来自自变量机器人的端到端具身智能基础模型WALL-OSS,以总分54.69、成功率35.33%的成绩,超越美国具身智能明星公司PhysicalIntelligence的pi0(π0),排名全球第二。
    在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒、开瓶器进抽屉等多个单任务中,WALL-OSS均拿下单项第一
    要知道,这可不是一场普通的测试。
    RoboChallenge由Dexmal原力灵机联合HuggingFace发起,是首个在真实物理环境中,由真实机器人执行操作的大规模、多任务基准测试。
    与LLM测评不同,具身模型测评更像是一场“开卷考”,任务描述和场景环境都是提前公开的。
    参赛方无需提交模型权重,只需提供可驱动机器人的算法;最终,平台通过统一的真机执行,以动作视频和任务完成率作为评分依据。
    格外关键的是,WALL-OSS是一个开源模型
    相较于闭源模型的测评结果存在较大操作空间(其性能可能源于对第三方模型的微调、接口层的特殊适配,或者存在黑箱内的未公开优化),模型本身的原生能力不容易被外界验证,开源模型的成绩建立在完全透明的代码与参数之上,其能力可被任何研究者复现、检验和深入研究
    而且,WALL-OSS的开源程度也相当彻底:不仅开放了预训练模型权重、完整训练代码和数据集接口,甚至还提供了详尽的部署文档。仅需RTX4090级别的消费级显卡,就可以完成从训练到推理部署的完整流程。
    另外,当前榜单前三名,包括pi0、pi0.5,也都是来自开源体系
    具身智能的前沿发展,正在由开源模型共同推动向前。
    “机器人脑”物理世界大PK
    下面先具体来看WALL-OSS在测试中的实际表现。
    RoboChallenge首发的Table30任务集,包含30个真实日常操作任务,而在行业常见的真机评测中,任务数量通常只有3–5个。
    该任务集从四个维度构建评估体系:VLA方案难点、机器人类型、任务场景环境、目标物体属性,覆盖了具身模型在真实世界中可能遇到的多样复杂情况。
    以难度较高的“叠抹布”任务为例,WALL-OSS目前位列该单项第一。
    在该任务中,WALL-OSS以41分的成绩领先pi0。尽管其任务成功率仍只有10%,但已是当前所有参赛模型中的最优表现;相比之下,pi0在该任务中的成功率为0%,仅获得部分步骤分。
    RoboChallenge平台集成了UR5、FrankaPanda、Aloha、ARX-5等多款主流机器人,用于远程真机评测。
    并且,其公开了所有任务演示数据及测试中间结果,所有人都能看到机器人执行任务的全过程监控记录。
    打开任务执行详情,可以看到左侧上方是多视角视频画面,展示了任务现场的实际场景,能直观看到机器人的操作过程
    右侧上方的arm图表,记录了机械臂6个关节(joint1–joint6)的角度变化,曲线波动对应关节运动;右侧下方的arm_gripper图表,则记录了夹爪的开合状态。
    最右侧信息栏则展示任务ID、执行时长等基础信息。
    底部时间轴可以精准定位某一时刻,同步查看该时间点的视频画面与机械臂/夹爪状态,快速找到动作异常的环节。
    从公开视频中可以看到,WALL-OSS成功完成了抹布的一次抓取与对折操作:
    在相对简单一些的“连续按下三个按钮”任务中,WALL-OSS的优势更加明显,得分显著领先其它模型。
    实际操作belike(以下展示均为加速画面):
    在“将不同形状杂物收纳至筐中”的任务里,WALL-OSS同样表现稳定:
    该任务中,无论是得分还是成功率,WALL-OSS都高于pi0。
    在“拉开抽屉并放入杂物”等需要连续规划与空间判断的任务中,也能看到其完整完成操作流程:
    值得一提的是,RoboChallenge的真机测试规则本身并未限制模型进行针对性优化或微调。开发者可以使用官方提供的任务示范数据对模型进行训练。
    模型训练完成后,需对接平台标准化API。平台提供统一的框架代码,参赛方仅需补充自身逻辑,确保模型实现观察-推理-停止的完整交互闭环,并可通过模拟测试进行验证。
    评估请求进入人工调度队列后,任务将在真实场景中执行,最终结果由平台自动发布。
    也正是在这样的规则下,开源模型的成绩,含金量才显得尤为突出。
    目前,自变量团队已表示,WALL-OSS提交的复现结果示例,微调代码和模型权重也将在近期全部开源。除检验测试结果的真实性,开发者们也可以在平台上根据源代码和各个任务的微调代码,结合自己的数据完成复现微调。
    接下来问题来了,WALL-OSS是如何做到的?
    拆解背后技术突破
    在模型的具体实现层面,官方已发布技术报告,对WALL-OSS的设计思路与训练路径进行了系统披露。