开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!
国产具身智能基座模型,再次突破!
RoboChallenge真机评测榜单上,来自自变量机器人的端到端具身智能基础模型WALL-OSS,以总分54.69、成功率35.33%的成绩,超越美国具身智能明星公司PhysicalIntelligence的pi0(π0),排名全球第二。
在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒、开瓶器进抽屉等多个单任务中,WALL-OSS均拿下单项第一
要知道,这可不是一场普通的测试。
RoboChallenge由Dexmal原力灵机联合HuggingFace发起,是首个在真实物理环境中,由真实机器人执行操作的大规模、多任务基准测试。
与LLM测评不同,具身模型测评更像是一场“开卷考”,任务描述和场景环境都是提前公开的。
参赛方无需提交模型权重,只需提供可驱动机器人的算法;最终,平台通过统一的真机执行,以动作视频和任务完成率作为评分依据。
格外关键的是,WALL-OSS是一个开源模型
相较于闭源模型的测评结果存在较大操作空间(其性能可能源于对第三方模型的微调、接口层的特殊适配,或者存在黑箱内的未公开优化),模型本身的原生能力不容易被外界验证,开源模型的成绩建立在完全透明的代码与参数之上,其能力可被任何研究者复现、检验和深入研究
而且,WALL-OSS的开源程度也相当彻底:不仅开放了预训练模型权重、完整训练代码和数据集接口,甚至还提供了详尽的部署文档。仅需RTX4090级别的消费级显卡,就可以完成从训练到推理部署的完整流程。
另外,当前榜单前三名,包括pi0、pi0.5,也都是来自开源体系
具身智能的前沿发展,正在由开源模型共同推动向前。
“机器人脑”物理世界大PK
下面先具体来看WALL-OSS在测试中的实际表现。
RoboChallenge首发的Table30任务集,包含30个真实日常操作任务,而在行业常见的真机评测中,任务数量通常只有3–5个。
该任务集从四个维度构建评估体系:VLA方案难点、机器人类型、任务场景环境、目标物体属性,覆盖了具身模型在真实世界中可能遇到的多样复杂情况。
以难度较高的“叠抹布”任务为例,WALL-OSS目前位列该单项第一。
在该任务中,WALL-OSS以41分的成绩领先pi0。尽管其任务成功率仍只有10%,但已是当前所有参赛模型中的最优表现;相比之下,pi0在该任务中的成功率为0%,仅获得部分步骤分。
RoboChallenge平台集成了UR5、FrankaPanda、Aloha、ARX-5等多款主流机器人,用于远程真机评测。
并且,其公开了所有任务演示数据及测试中间结果,所有人都能看到机器人执行任务的全过程监控记录。
打开任务执行详情,可以看到左侧上方是多视角视频画面,展示了任务现场的实际场景,能直观看到机器人的操作过程
右侧上方的arm图表,记录了机械臂6个关节(joint1–joint6)的角度变化,曲线波动对应关节运动;右侧下方的arm_gripper图表,则记录了夹爪的开合状态。
最右侧信息栏则展示任务ID、执行时长等基础信息。
底部时间轴可以精准定位某一时刻,同步查看该时间点的视频画面与机械臂/夹爪状态,快速找到动作异常的环节。
从公开视频中可以看到,WALL-OSS成功完成了抹布的一次抓取与对折操作:
在相对简单一些的“连续按下三个按钮”任务中,WALL-OSS的优势更加明显,得分显著领先其它模型。
实际操作belike(以下展示均为加速画面):
在“将不同形状杂物收纳至筐中”的任务里,WALL-OSS同样表现稳定:
该任务中,无论是得分还是成功率,WALL-OSS都高于pi0。
在“拉开抽屉并放入杂物”等需要连续规划与空间判断的任务中,也能看到其完整完成操作流程:
值得一提的是,RoboChallenge的真机测试规则本身并未限制模型进行针对性优化或微调。开发者可以使用官方提供的任务示范数据对模型进行训练。
模型训练完成后,需对接平台标准化API。平台提供统一的框架代码,参赛方仅需补充自身逻辑,确保模型实现观察-推理-停止的完整交互闭环,并可通过模拟测试进行验证。
评估请求进入人工调度队列后,任务将在真实场景中执行,最终结果由平台自动发布。
也正是在这样的规则下,开源模型的成绩,含金量才显得尤为突出。
目前,自变量团队已表示,WALL-OSS提交的复现结果示例,微调代码和模型权重也将在近期全部开源。除检验测试结果的真实性,开发者们也可以在平台上根据源代码和各个任务的微调代码,结合自己的数据完成复现微调。
接下来问题来了,WALL-OSS是如何做到的?
拆解背后技术突破
在模型的具体实现层面,官方已发布技术报告,对WALL-OSS的设计思路与训练路径进行了系统披露。
特别声明:以上内容(如有图片或视频亦包括在内)为“我要久久发用户上传并发布”,本平台仅提供信息存储服务。
热门文章
- 1000个官方媒体网站发布广告,每天百万人次曝光,帮您客户覆盖全国,业绩翻倍!
- 小米SU7二手均价跌至20.7万,Ultra版半年跌去15万
- 装修完才发现,家里这9处真“别扭”,给大家提个醒,别走我老路
- 重磅发布|2025PChouse Award私宅设计大奖年度私宅设计影响力榜
- 标志性变化!麦肯锡改革校招,要求应届生用AI配合完成案例测试
- 2026届春运选手们注意啦!这些信息有必要提前知晓!这些服务也请提前准备!
- 市教育局正式回复:初中上课时间不早于8:00,不得要求学生提前到校参加统一教学活动!
- 【大讲堂】南方教研大讲堂第172场(高中化学专场)举行
- 徐汇、杨浦初三一模数学卷+答案参考
- 保底offer都拿到了,最值得继续加申的英国大学!
- 2025青岛普通高中分数排名、高考成绩出炉
- 航海类专业赢麻了!交通运输部2025拟录697人,多名专科生上岸
- 谁能“撬动”零负债人群主动消费
- 发力“抢人” 这个省会急了
- “漂亮饭”受热捧 一年狂收10亿
- 公积金贷款利率还有下调空间吗
- 温州一公司发春节放假通知:放35天
- 国考出分了
- 一个悠悠球卖1万8 部分地区已断货
- 新疆大盘鸡怎么成了河南“省菜”