具身世界模型开源让机器人学会“预演”未来

字体：小中大

— 2025—

10/26

08:35:16

2025-10-26 08:35:16 来源：央视新闻客户端

　　当前，机器人的运动能力正在迅速进化，有些已经可以很轻松地完成后空翻、跑步等动作。但是，相比完成一个后空翻，让它“理解”面前的水杯为什么倒满水后会洒出来就更难了。

　　日前，我国科研团队开源出一个名叫WoW（读作“哇哦”）的具身世界模型，它让机器人可以像人类一样，进化出更好的想象力与执行力。怎么理解具身世界模型？它如何让机器人更聪明？

　　总台记者袁嘉忆：在北京人形机器人创新中心，各种形态的机器人本体正在进行具身智能数据采集和动作模型训练。这台“天工”机器人正在自主地1∶1复刻视频中的动作姿态，而这个视频就是机器人在行动之前“想象出来”的预演画面，可以用来指导它与真实世界的交互。这样从想象预演到动作执行的“知行合一”的能力，依托的就是由科研团队自主研发的具身世界模型。

　　WoW具身世界模型项目负责人池晓威：机器人在推倒这个杯子的时候，我们人类会本能地预测到这个杯子要飞出去、要倒掉，所以我会去进行这个接杯子的动作。世界模型本质上就是AI模拟人类思考和决策的时候，去进行想象和预测的这样一个模型，它需要去生成符合物理规律的未来预测视频，帮助机器人真的去把想象当中的运动轨迹变到真实世界当中执行出来，从而把想象跟现实去做连接。

　　WoW具身世界模型项目算法负责人贾沛东：这是我们刚刚用手机在家居场景下拍摄的一张图片，世界模型生成一个未来状态，世界模型动作翻译器将这个状态采用逆动力学模型给它转换成机器人具体执行的操作。我们采集了百万级别真实交互的具身智能数据，让世界模型能够在真实的、非常泛化的场景下真正去操作。

　　WoW具身世界模型由北京人形机器人创新中心联合北京大学、香港科技大学团队研发，并向全球研究者与开发者开放。该世界模型可以适配人形、类人形、机械臂等不同本体机器人，覆盖家居、商超、工业、物流等多种场景，还能高精度模拟水洒在电脑上等极端情况，为真机训练难以实现的数据采集提供重要补充。

　　具备自主进化能力世界模型“自己教自己”

　　具身世界模型就像是个虚拟世界，机器人可以在这个虚拟世界里执行任何想象。而要想正确有效地训练机器人，这个虚拟世界需要足够合理，符合真实世界的运行逻辑。为此，由北京人形机器人创新中心联合北京大学、香港科技大学组建的WoW具身世界模型研发团队，创新构建了全球首个具备自主进化能力的多模态世界模型体系，让世界模型“自己教自己”。

　　WoW具身世界模型研发团队首创性地构建了具身世界模型与视觉语言模型双模型协同联动的多模态世界模型体系，具身世界模型负责物理推演与动态预测，视觉语言模型负责多模态理解、长程任务规划与逻辑自校正，两者共同形成“想象一验证一修正一再想象”的具身智能学习回路。机器人不仅能够在脑中“想象世界”，还能通过在真实环境的“试错学习”形成因果理解，自主进化出类似人类心智的“物理直觉”。

　　WoW具身世界模型项目总监秦志源：假如说给了机器人一个苹果，它可能会思考这个苹果可以干什么呢？可能会把苹果放在水池里面进行清洗，也可以想象出把苹果放在微波炉里进行加热，它甚至可能会把苹果扔在地上。VLM（视觉语言模型）可以进行思考哪个路径是更好的，世界模型是希望能够增加它的一个广度。但是VLM（视觉语言模型）是希望能够增加它的深度，让它去更好决策。通过不断地VLM（视觉语言模型）给世界模型，世界模型给VLM（视觉语言模型），这样形成一个像打乒乓球一样，来回式在传球，它的能力会越来越好。

　　除了多模态世界模型体系的内循环机制，北京人形机器人创新中心还同步发布了全球首个针对具身世界模型的综合基准，构建形成对世界模型的感知理解、预测推理、决策规划、泛化执行等四大核心能力的多维评测体系，为世界模型的训练与迭代提供外部支撑。

　　WoW具身世界模型项目总监秦志源：世界模型不仅仅是作为生成视频而已，我们更重要的是能够让它在真实世界中进行交互，从想象推理到真实世界中的执行动作形成一个反馈闭环，这样可以让世界模型更好，不断自我进化，在真实场景中能够自我提升。

版权和免责申明

标签： 机器人;科技责任编辑： 黄泽杭

具身世界模型开源让机器人学会“预演”未来

版权和免责申明

相关阅读

扫码关注
浙江在线官方微信公众号

扫码关注
浙江在线官方微博

具身世界模型开源 让机器人学会“预演”未来

版权和免责申明

相关阅读

扫码关注浙江在线官方微信公众号

扫码关注浙江在线官方微博

具身世界模型开源让机器人学会“预演”未来

扫码关注
浙江在线官方微信公众号

扫码关注
浙江在线官方微博