高级搜索投稿爆料
6000MHz超频能手!威刚XPG龙耀Lancer DDR5 6000内存图赏
6000MHz超频能手!威刚
Nreal Air AR眼镜评测:79g机身就能投出201吋巨幕!
Nreal Air AR眼镜
手表屏幕也可以常亮!OPPO Watch 3 Pro评测:续航拉满的安卓表皇
手表屏幕也可以常亮!OPPO
再次印证锐龙7 6800HS是最佳轻薄本处理器!小新Air 14 Plus 2022评测
再次印证锐龙7 6800HS
16线程轻薄本对决!酷睿i5-12500H VS.锐龙7 6800H
16线程轻薄本对决!酷睿i5

您现在的位置:硅谷网 > 要闻>

RoboChallenge测评:π0、π0.5领先,自变量WALL-OSS-Flow零成功率引关注

2025-12-04 18:51  来源:网络 编辑:聂荌   阅读量:17900   会员投稿

在具身智能竞速加速升温的当下,真实场景的客观评测成为检验机器人模型能力最关键的一环。 

近日,“具身进化论”在查询最新发布的RoboChallenge测试结果时注意到,π0、π0.5 在成功率上遥遥领先其他开源模型。自变量机器人(X Square Robot)的大模型wall-oss-flow虽然在多次企业自我宣传中提到,“基本上和PI、和google在同一个水平线上”,但是在多个任务上成功率偏低。根据公开的测评记录,其在31次测试中大部分成功率为零,这一表现引发业内对其大模型真实能力的讨论。 

RoboChallenge是全球首个具身智能的大规模真机评测平台,也是目前行业内最受关注的真实物理机器人评测平台,由Dexmal原力灵机联合Hugging Face发布,被视作“机器人界的硬核基准”。其最大特点是真机真测:评测同时接入UR5、Franka、Aloha 双臂系统以及国产ARX-5 四类主流机器人,统一软件栈并配备多台RGB-D深度相机,以确保任务在高度一致的物理条件下进行。 

平台的任务覆盖柔性物体处理、双臂协作、多阶段顺序动作等真实世界的关键难点。其中Table30场景包含30个具有代表性的日常任务,包括叠抹布、整理果篮、插花、开关水龙头等,难度从基础操作递进到长链条组合动作。 

据了解,RoboChallenge 之所以被认为更加客观,是因为其采用了 “任务成功率 + 进度评分”的双指标体系。前者统计任务是否完整成功,后者将任务拆解为多个关键阶段并按推进程度累计分值,即便任务未完成也能反映模型做到哪一步,为能力评估提供更细粒度的信息。

在该评测体系中,多款主流开源模型已完成测试。“具身进化论”对比发现,基于Physical Intelligence (Pi)系列构建的π0和π0.5是官方重点基线,它们在成功率与进度得分上整体领先其他开源模型,特别是π0.5,显示出更成熟的任务执行能力。

2_20251204122846.jpg

                                                                                          π0测试结果

3_20251204122700.jpg

                                                                                            π0.5测试结果

相比之下,自变量的wall-oss-flow 在相同条件下的表现明显偏弱。测评结果显示:wall-oss-flow共测试31次,其中2次成功率为60%,1次成功率为50%,1次成功率为20%,其余所有任务成功率均为0。 

4_20251204122309.jpg

                                                                                             wall-oss-flow测试结果

“具身进化论”从进度分情况看到,模型虽然在部分任务中能完成初段动作,但多数情况下未能完成关键步骤,执行链条往往在中段被迫中断。这与平台强调的“多阶段连续操作能力”形成明显差距。 

公开信息显示,自变量2023年成立,创始人兼CEO为王潜。今年9月,自变量发布其开源大模型WALL-OSS,自变量在官方宣传稿中强调该模型“具备强大的泛化性和推理能力,在长程操作任务方面表现优于其他基础模型”。 

王潜甚至曾在接受媒体采访时表示:“我们(自变量)的模型水平基本上和PI、和google在同一个水平线上。” 

但此次RoboChallenge 的评测结果显示,自变量模型的水平、能力在真实机器人执行任务时未能体现,与PI的模型(π0 和 π0.5)也存在明显差距。 

一位具身智能从业者对“具身进化论”分析,RoboChallenge的独特价值正是在于提供透明、可复现的真机评估环境,避免主观展示带来的偏差。随着越来越多模型加入测评,业内对“模型真实能力差异”有了更清晰的认知。 

对具身智能行业而言,此次结果再次提醒:真正的竞争不在PR宣传中,而在三方认可的评测,学术基准线,以及机器人能否稳定完成任务的那一刻。 

真实世界,正在成为检验大模型能力的最终标准。而认识到差距,正是追赶的开始。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

 最新推荐  
颜值当世无敌!鑫谷斜杠青年MINI机箱评测:1599元很贵吗? 颜值当世无敌!鑫谷斜
一、前言:你愿意花1599买一款超高颜值的ITX机箱吗?你愿意花1599...
某电商运营岗位批量招聘,禾蛙助力从混乱到胜仗!
从共赢到共生:百度爱采购2025岁末家年华,见
新基准 再定义 索尼发布全画幅微单新基准Al
筑牢“人工智能+”数据基石,福昕IDP助力各行
峰雪同行核心团队赴美与腾讯CSIG共商AI医疗
华为中国行2025·黑龙江算电融合与人工智能创
ETC助手宣布行业首款AI智能体助手Agent
依托鲲鹏处理器矩阵算力 中科大陈俊仕团队破解稀
禾蛙受邀出席36Kr职场红利派对,我们看到了招
智造拥抱AI,海尔两项成果获国家级认可!
 热点推荐  
联发科拍照正名之作!荣耀70 Pro/Pro+首发评测:首发IMX800 照亮黑夜 联发科拍照正名之
一、前言:升级旗舰双芯+定制超大底荣耀数字系列大升级要说今年上半年买旗舰...
四川AI SEO优化公司怎么选?4个核心维
激光雷达引领智能割草新生态—— 追觅A3
昇腾生态硬核赋能!上交大攻克超长上下文推理
华为乾崑携手用户,共绘奕境之光
华为乾崑赋能,奕境为家而来
艾艺智慧园区解决方案,为园区管理装上智慧大
上海木函建筑装饰有限公司获天使轮融资
权裴伦主演央视频短剧《唐诗三万首》 喜剧版
第八届“绽放杯”5G应用征集大赛全国总决赛
计算筑基,智创未来|华为算力基础设施创新突
图文推荐  
2022CFS第十一届财经峰会-7月28日-北京
2022CFS第
华鹰CDI数字化服务商Top100评选 品牌方项目负责人在线投票
华鹰CDI数字化
2022 GOPS 全球运维大会深圳站-GOPS 2022
2022 GOP
深圳物联网展-IOTE 2022 第十八届国际物联网展深圳站
深圳物联网展-I
硅谷网 |  网站地图 |  RSS订阅
网站联系邮箱:boss_11@teag.net
Copyright © 2007- 硅谷网. 版权所有. All Rights Reserved.