ADreamLeft's site

Back

Lecture 11#

why 机器人仍然使用 PPO

  • PPO-Clip 保证了更新保守、训练稳定,
  • 而且能吃下大规模并行仿真的数据;虽然样本效率一般,但在仿真环境里可以用数量补。
  • 避免了 Q 函数的学习

Sim-to-Real 的 Gap 来源(2024-2025)

  • 物理建模不完美
  • 接触过于理想化
  • 真实电机不够稳定

解决 sim-to-real gap 的办法

  • Domain Randomization:仿真环境参数随机化
  • Realistic Motor Modeling:考虑电机的各种问题
  • Asymmetric Actor-Critic:给 critic 网络全局信息,但是 actor 只有局部观测信息

怎么把人类动作迁移到人形机器人上。 难点叫 Embodiment Gap: 人和机器人的身体结构不同,比如腿长、关节范围、质量分布、脚底形状、自由度都不一样。人类 motion capture 里的动作不能直接拿给机器人执行。

整体流程是: 1. Human Motions 先收集人类动作数据,比如 MoCap。 这些动作可能包括走路、搬箱子、爬障碍、蹲下、转身等。 2. Interaction Mesh Retargeting 把人类动作 retarget 到机器人身上。这里不是简单地让机器人关节角等于人的关节角,而是保留“人和环境/物体的交互关系”。

qt=argminqtiL(pt,isource)L(pt,itarget(qt))2+qtqt12q_t^* = \arg\min_{q_t} \sum_i \|L(p_{t,i}^{source}) - L(p_{t,i}^{target}(q_t))\|^2 + \|q_t-q_{t-1}\|^2

也就是找一个机器人姿态,使得机器人关键点和人类动作中的关键点关系尽量一致,同时动作要平滑。

约束包括:

  • 不能穿模或碰撞:
ϕj(qt)0\phi_j(q_t) \ge 0
  • 关节角不能超过范围:
qminqtqmaxq_{\min} \le q_t \le q_{\max}
  • 关节速度不能太快:
vmindtqtqt1vmaxdtv_{\min}dt \le q_t-q_{t-1} \le v_{\max}dt
  • 支撑脚接触点要稳定:
Ftp=Ft1pF_t^p = F_{t-1}^p

3. Efficient Augmentation 为了让机器人更鲁棒,会对动作和环境做增强。比如换不同物体、不同障碍、不同空间位置。每种增强都重新解一次优化,生成更多机器人可执行的参考轨迹。 4. RL Training 然后用这些 retarget 后的机器人动作作为 reference motion,让 PPO 之类的 RL 算法训练机器人策略。策略不是死记轨迹,而是学会在动力学约束下跟踪这些参考动作,同时保持平衡、控制接触、处理扰动。 5. Zero-Shot Sim 2 Real 最后希望在仿真训练完之后,不再额外真实机器人 fine-tuning,直接部署到真实人形机器人上。这个叫 zero-shot sim-to-real。

具身智能导论:任务
https://adreamleft.site/blog/embodiedai/%E5%85%B7%E8%BA%AB%E6%99%BA%E8%83%BD%E5%AF%BC%E8%AE%BA%E4%BB%BB%E5%8A%A1
Author ADL
Published at June 7, 2026
Comment seems to stuck. Try to refresh?✨