具身智能导论：任务 • ADreamLeft's site

Lecture 11#

why 机器人仍然使用 PPO

PPO-Clip 保证了更新保守、训练稳定，
而且能吃下大规模并行仿真的数据；虽然样本效率一般，但在仿真环境里可以用数量补。
避免了 Q 函数的学习

Sim-to-Real 的 Gap 来源（2024-2025）

物理建模不完美
接触过于理想化
真实电机不够稳定

解决 sim-to-real gap 的办法

Domain Randomization：仿真环境参数随机化
Realistic Motor Modeling：考虑电机的各种问题
Asymmetric Actor-Critic：给 critic 网络全局信息，但是 actor 只有局部观测信息

怎么把人类动作迁移到人形机器人上。 难点叫 Embodiment Gap：人和机器人的身体结构不同，比如腿长、关节范围、质量分布、脚底形状、自由度都不一样。人类 motion capture 里的动作不能直接拿给机器人执行。

整体流程是： 1. Human Motions 先收集人类动作数据，比如 MoCap。这些动作可能包括走路、搬箱子、爬障碍、蹲下、转身等。 2. Interaction Mesh Retargeting 把人类动作 retarget 到机器人身上。这里不是简单地让机器人关节角等于人的关节角，而是保留“人和环境/物体的交互关系”。

q_t^* = \arg\min_{q_t} \sum_i \|L(p_{t,i}^{source}) - L(p_{t,i}^{target}(q_t))\|^2 + \|q_t-q_{t-1}\|^2

也就是找一个机器人姿态，使得机器人关键点和人类动作中的关键点关系尽量一致，同时动作要平滑。

约束包括：

不能穿模或碰撞：

\phi_j(q_t) \ge 0

关节角不能超过范围：

q_{\min} \le q_t \le q_{\max}

关节速度不能太快：

v_{\min}dt \le q_t-q_{t-1} \le v_{\max}dt

支撑脚接触点要稳定：

F_t^p = F_{t-1}^p

3. Efficient Augmentation 为了让机器人更鲁棒，会对动作和环境做增强。比如换不同物体、不同障碍、不同空间位置。每种增强都重新解一次优化，生成更多机器人可执行的参考轨迹。 4. RL Training 然后用这些 retarget 后的机器人动作作为 reference motion，让 PPO 之类的 RL 算法训练机器人策略。策略不是死记轨迹，而是学会在动力学约束下跟踪这些参考动作，同时保持平衡、控制接触、处理扰动。 5. Zero-Shot Sim 2 Real 最后希望在仿真训练完之后，不再额外真实机器人 fine-tuning，直接部署到真实人形机器人上。这个叫 zero-shot sim-to-real。