开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!
国产具身智能基座模型,再次突破!
RoboChallenge真机评测榜单上,来自自变量机器人的端到端具身智能基础模型WALL-OSS,以总分54.69、成功率35.33%的成绩,超越美国具身智能明星公司PhysicalIntelligence的pi0(π0),排名全球第二。
在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒、开瓶器进抽屉等多个单任务中,WALL-OSS均拿下单项第一
要知道,这可不是一场普通的测试。
RoboChallenge由Dexmal原力灵机联合HuggingFace发起,是首个在真实物理环境中,由真实机器人执行操作的大规模、多任务基准测试。
与LLM测评不同,具身模型测评更像是一场“开卷考”,任务描述和场景环境都是提前公开的。
参赛方无需提交模型权重,只需提供可驱动机器人的算法;最终,平台通过统一的真机执行,以动作视频和任务完成率作为评分依据。
格外关键的是,WALL-OSS是一个开源模型
相较于闭源模型的测评结果存在较大操作空间(其性能可能源于对第三方模型的微调、接口层的特殊适配,或者存在黑箱内的未公开优化),模型本身的原生能力不容易被外界验证,开源模型的成绩建立在完全透明的代码与参数之上,其能力可被任何研究者复现、检验和深入研究
而且,WALL-OSS的开源程度也相当彻底:不仅开放了预训练模型权重、完整训练代码和数据集接口,甚至还提供了详尽的部署文档。仅需RTX4090级别的消费级显卡,就可以完成从训练到推理部署的完整流程。
另外,当前榜单前三名,包括pi0、pi0.5,也都是来自开源体系
具身智能的前沿发展,正在由开源模型共同推动向前。
“机器人脑”物理世界大PK
下面先具体来看WALL-OSS在测试中的实际表现。
RoboChallenge首发的Table30任务集,包含30个真实日常操作任务,而在行业常见的真机评测中,任务数量通常只有3–5个。
该任务集从四个维度构建评估体系:VLA方案难点、机器人类型、任务场景环境、目标物体属性,覆盖了具身模型在真实世界中可能遇到的多样复杂情况。
以难度较高的“叠抹布”任务为例,WALL-OSS目前位列该单项第一。
在该任务中,WALL-OSS以41分的成绩领先pi0。尽管其任务成功率仍只有10%,但已是当前所有参赛模型中的最优表现;相比之下,pi0在该任务中的成功率为0%,仅获得部分步骤分。
RoboChallenge平台集成了UR5、FrankaPanda、Aloha、ARX-5等多款主流机器人,用于远程真机评测。
并且,其公开了所有任务演示数据及测试中间结果,所有人都能看到机器人执行任务的全过程监控记录。
打开任务执行详情,可以看到左侧上方是多视角视频画面,展示了任务现场的实际场景,能直观看到机器人的操作过程
右侧上方的arm图表,记录了机械臂6个关节(joint1–joint6)的角度变化,曲线波动对应关节运动;右侧下方的arm_gripper图表,则记录了夹爪的开合状态。
最右侧信息栏则展示任务ID、执行时长等基础信息。
底部时间轴可以精准定位某一时刻,同步查看该时间点的视频画面与机械臂/夹爪状态,快速找到动作异常的环节。
从公开视频中可以看到,WALL-OSS成功完成了抹布的一次抓取与对折操作:
在相对简单一些的“连续按下三个按钮”任务中,WALL-OSS的优势更加明显,得分显著领先其它模型。
实际操作belike(以下展示均为加速画面):
在“将不同形状杂物收纳至筐中”的任务里,WALL-OSS同样表现稳定:
该任务中,无论是得分还是成功率,WALL-OSS都高于pi0。
在“拉开抽屉并放入杂物”等需要连续规划与空间判断的任务中,也能看到其完整完成操作流程:
值得一提的是,RoboChallenge的真机测试规则本身并未限制模型进行针对性优化或微调。开发者可以使用官方提供的任务示范数据对模型进行训练。
模型训练完成后,需对接平台标准化API。平台提供统一的框架代码,参赛方仅需补充自身逻辑,确保模型实现观察-推理-停止的完整交互闭环,并可通过模拟测试进行验证。
评估请求进入人工调度队列后,任务将在真实场景中执行,最终结果由平台自动发布。
也正是在这样的规则下,开源模型的成绩,含金量才显得尤为突出。
目前,自变量团队已表示,WALL-OSS提交的复现结果示例,微调代码和模型权重也将在近期全部开源。除检验测试结果的真实性,开发者们也可以在平台上根据源代码和各个任务的微调代码,结合自己的数据完成复现微调。
接下来问题来了,WALL-OSS是如何做到的?
拆解背后技术突破
在模型的具体实现层面,官方已发布技术报告,对WALL-OSS的设计思路与训练路径进行了系统披露。
特别声明:以上内容(如有图片或视频亦包括在内)为“我要久久发用户上传并发布”,本平台仅提供信息存储服务。
热门文章
- 1000个官方媒体网站发布广告,每天百万人次曝光,帮您客户覆盖全国,业绩翻倍!
- 存好!想在四川找“铁饭碗”,死盯这些央国企
- 一加 15T或为骁龙 8E5小屏旗舰,预计3月发布,电池突破7500mAh
- 小米REDMI Turbo 5 Max首发天玑9500s芯片,本月见
- iQOO Z11 Turbo 评测:黄金中屏兼顾更全能的体验
- 战斗精灵降临!iQOO Z11 Turbo定义中屏新标杆
- 无需ROOT!支持温控调节和自定义频率,真我Neo8配置曝光
- 泡泡玛特“牵手”荣耀 潮玩手机下周一发布
- TCL A400 Pro实测:艺术电视也能兼顾画质与实用
- 苹果推出Apple Creator Studio订阅服务,买断版与订阅版可共存
- 力压苹果!华为手机2025年重返中国第一背后:还没完全发力 仍有上涨空间
- vivo总裁兼首席执行官沈炜入选“2025年度手机行业六大杰出人物”
- 干掉防窥膜!国外博主体验三星S26 Ultra,称隐私显示功能太强大
- 三星显示启动8.6代OLED量产
- 三星确认Galaxy AI基础功能继续免费,覆盖通话助手、写作助手等服务
- 三星优化产线布局,年内关闭一座8英寸晶圆代工厂
- 多地省考放宽35岁年龄限制
- 16G内存条的价格涨幅超过3倍
- 观致汽车厂再流拍 6万人围观1人报名
- 新能源汽车废旧动力电池新规来了