港科大PeiLAB团队提出WMPO:基于世界模型的VLA策略优化框架

Updated on 

January 27, 2026

香港科技大学和字节跳动Seed团队联合提出了WMPO(世界模型驱动的策略优化框架),通过像素级视频生成世界模型实现VLA(视觉-语言-动作)模型的无真实环境交互on-policy强化学习,显著提升样本效率、任务性能、泛化能力与终身学习能力,同时涌现出自修正等高级行为。本文已经被ICLR2026接收。

研究背景与核心痛点

Image

现有解决方案难以兼顾规模化与有效性:人类干预引导学习需持续监督,难以扩展;仿真器适配多样场景成本高;传统 latent 空间世界模型与VLA的web-scale预训练视觉特征存在天然错位,无法充分利用预训练知识。

核心框架:WMPO 整体设计

WMPO的核心逻辑是将VLA策略优化完全置于“想象”空间——基于高保真像素级世界模型生成轨迹,替代真实环境交互,同时支持更强的on-policy强化学习。整体流程遵循“想象轨迹生成→轨迹采样评估→策略更新”的迭代循环(figure 2)。

Image

关键模块详解

生成式世界模型

核心作用是仿真机器人与环境的动态变化,生成与VLA预训练特征对齐的视觉轨迹,为策略优化提供可靠“虚拟训练场”。

轻量级奖励模型

核心作用是自动判断想象轨迹的任务成败,提供稀疏奖励信号,避免复杂奖励塑造和奖励攻击。

On-Policy 策略优化(GRPO)

选择Group Relative Policy Optimization作为优化算法,适配稀疏奖励场景,兼顾稳定性与扩展性。

核心创新点

  1. 像素空间优先:摒弃传统 latent 空间世界模型,直接在像素空间生成轨迹,完美匹配VLA的预训练视觉特征,充分释放预训练知识的价值。
  2. 策略行为对齐:通过策略自身轨迹微调世界模型,解决专家演示与策略实际行为的分布错位问题,让“想象”更贴近真实执行。
  3. 长轨迹生成技术:噪声帧条件+帧级动作控制,突破长horizon视频生成的视觉失真和动作错位瓶颈。
  4. 无真实交互的on-policy RL:依托世界模型实现大规模轨迹采样,既规避真实环境的高成本,又享受on-policy方法的性能优势,超越主流off-policy方案。

实验验证与关键结果

仿真环境性能(Mimicgen平台)

Image

真实环境验证(Cobot Mobile ALOHA平台)

在“方块插入杆子”任务(间隙仅5mm)中,WMPO成功率70%,显著高于基础策略(53%)和DPO(60%);世界模型能精准预测真实轨迹的演化,即使未见过该轨迹也能捕捉核心动态(figure 7)。

Image

涌现行为

Image
Image

泛化能力

在空间扰动(杆子随机位置)、背景替换、纹理替换三种分布外场景中,WMPO平均成功率29.6%,优于所有基线(最高24.7%),证明其学习的是通用操作技能而非虚假视觉线索(table 2、figure 4)。

Image
Image

终身学习

迭代收集128条轨迹进行优化,性能持续稳定提升;而DPO训练不稳定,无法实现迭代改进,且WMPO无需人类标注,比依赖更多专家演示的基线更具扩展性(figure 6)。

Image

结论与意义

WMPO构建了“世界模型+on-policy RL”的VLA优化新范式,核心价值在于解决了真实环境交互成本高、样本效率低的行业痛点。通过像素级世界模型与VLA预训练特征的精准对齐,以及创新的长轨迹生成和策略优化设计,实现了性能、泛化性、终身学习能力的全面提升,同时涌现出自修正等高级行为,为通用机器人操作的规模化落地提供了可行路径。未来可扩展至流基策略,适配更多动作空间类型。

文章作者朱方琪受邀参加具身智能之心分享会,链接如下:
哔哩哔哩:

第一节:https://www.bilibili.com/video/BV13qkKB6EcM/?spm_id_from=333.1387.homepage.video_card.click
第二节:https://www.bilibili.com/video/BV1rZr1BvEaC/?spm_id_from=333.1387.homepage.video_card.click


文章转载自:具身智能之心
原文链接:https://mp.weixin.qq.com/s/oKJqK9VxAlUzjIoKlPO8tQ