Qiayuan Liao1∗†, Takara E. Truong2†, Xiaoyu Huang1†,
Yuman Gao1, Guy Tevet2, Koushil Sreenath1‡, C. Karen Liu2‡
1University of California, Berkeley, CA 94720, USA.
2Stanford University, Stanford, CA 94305, USA.
∗Corresponding author. Email: qiayuanl@berkeley.edu
†These authors contributed equally to this work; order decided by coin toss.
‡Equal advising; order mirrors the coin toss, with the other lab listed last.
摘要
- 🤸♀️ BeyondMimic 提出一个可扩展的框架,通过紧凑且统一的强化学习公式和共享超参数,使人形机器人能够学习并掌握从空中侧手翻到冲刺等多样化的敏捷类人运动,并在模拟和真实硬件上均达到最先进的自然度。
- 🧠 此外,该框架采用统一的潜在扩散模型,并通过分类器引导在推理时进行在线优化,从而能够实现灵活的目标指定、无缝的任务切换以及对运动修复、摇杆遥控和避障等未见过的下游任务的动态技能组合,而无需重新训练。
- 🎯 该工作通过结合可扩展的人类运动学习与基于扩散的在线优化,弥合了专业运动追踪和通用任务适应性之间的差距,为人形机器人提供了一个能在人类环境中无缝学习、适应和组合技能的实用基础。
BeyondMimic是一个旨在通过引导扩散(guided diffusion)实现人形机器人从运动追踪到多功能控制的框架。该工作旨在解决现有方法在从人类演示中学习时,无法在灵活性、自然度和泛化性之间取得平衡的挑战。
核心方法论详细阐述
BeyondMimic框架主要包含两个阶段:
- 可扩展的人类运动追踪(Scalable Human Motion Tracking via RL):
该阶段致力于通过强化学习(Reinforcement Learning, RL)使机器人掌握多样化、高拟真度的人类动作。
运动追踪目标(Tracking Objective):为了在保证动作风格的同时容忍全局漂移(global drift)并提高sim-to-real传输的鲁棒性,该方法引入了一个锚定体(anchor body),通常是机器人的躯干。所有目标肢体(target bodies)的期望姿态(desired poses)都相对于这个锚定体在锚定中心坐标系(anchor-centered frame)中表示。对于锚定体本身,其期望姿态直接追踪参考动作:\(\mathbf{T}^{\text{des}}_{\text{anchor}} = \mathbf{T}^{\text{ref}}_{\text{anchor}}\)。对于非锚定体\(b \neq b_{\text{anchor}}\),其期望姿态定义为\(\mathbf{T}^{\text{des}}_b = \text{A}(\mathbf{T}^{\text{ref}}_b, \mathbf{T}^{\text{anchor}})\),其中\(\text{A}(\cdot)\)是一个偏航对齐(yaw-aligned)和高度保持(height-preserving)的变换,而期望扭转(desired twists)则保持不变。
奖励函数(Rewards):为最大限度地提高跨动作的可移植性和最小化特定动作的偏置,本文设计了一个简单且与动作无关的奖励函数,包括一个统一的任务奖励项和三个轻量级的正则化惩罚项。
任务奖励(Task Reward):通过计算位置(position, p)、姿态(orientation, R)、线速度(linear velocity, v)和角速度(angular velocity, \(\omega\)的追踪误差\(\bar{e}_s\),并将其通过高斯形状的指数函数映射为奖励:\(r(\bar{e}_s, \sigma_s) = \exp(-\bar{e}_s/\sigma_s^2)\)。总任务奖励是这些项的乘积:\(r_{\text{task}} = \prod_{s \in \{\text{p,R,v},\omega\}} r(\bar{e}_s, \sigma_s)\)。
- 正则化惩罚(Regularization Penalties):
- 关节限制惩罚(joint limit penalty,\(r_{\text{limit}}\):鼓励关节位置保持在软限制内。
- 动作速率惩罚(action rate penalty,\(r_{\text{smooth}}\):促进连续动作之间的平滑过渡。
- 总接触惩罚(total contact penalty,\(r_{\text{contact}}\):惩罚自碰撞。
总奖励定义为:\(r = r_{\text{task}} - \lambda_l r_{\text{limit}} - \lambda_s r_{\text{smooth}} - \lambda_c r_{\text{contact}}\),其中\(\lambda_l, \lambda_s, \lambda_c > 0\)为权重。
- 正则化惩罚(Regularization Penalties):
观测和动作(Observation and Action):观测空间是连续的、以机器人为中心且不含时间堆叠。观测\(\mathbf{o} = [\psi, \mathbf{e}_{\text{anchor}}, \mathbf{V}_{\text{imu}}, \theta - \theta_0, \dot{\theta}, \mathbf{a}_{\text{last}}]\)包括参考动作的运动阶段(motion phase,\(\psi\)、锚定姿态误差(anchor pose error,\(\mathbf{e}_{\text{anchor}}\)、IMU扭转(IMU twist,\(\mathbf{V}_{\text{imu}}\))、关节状态(joint states,\(\theta - \theta_0, \dot{\theta}\)和上一步动作(previous action,\(\mathbf{a}_{\text{last}}\))。动作被设计为归一化的关节位置设定点:\(\theta_{\text{sp}} = \theta_0 + \alpha \odot \mathbf{a}\),发送给低级PD控制器以生成扭矩。与以往工作不同,该方法采用较低的关节阻抗(impedance)设置以更好地适应实际硬件。
域随机化(Domain Randomization):为实现sim-to-real传输,仅对少量关键参数进行随机化,包括地面摩擦和恢复系数、默认关节位置\(\theta_0\)和躯干质心位置,以及随机速度扰动。
自适应采样(Adaptive Sampling):在训练长序列动作时,为了有效学习困难片段,该策略优先采样具有较高经验失败率的片段,并在模型掌握这些片段后逐渐恢复均匀采样。
- 通过引导扩散实现多功能人形机器人控制(Versatile Humanoid Control via Guided Diffusion):
该阶段利用扩散模型(Diffusion Model)的特性,通过在线优化(online optimization)在推理时处理未见过的任务。
- 潜在扩散模型(Latent Diffusion Models, LDMs):
- VAE训练:首先,通过对人类运动追踪策略进行DAgger(Dataset Aggregation)蒸馏,训练一个条件变分自编码器(Variational Autoencoder, VAE)。VAE的编码器\(\text{E}\)接收参考运动组件(reference-motion components),如运动阶段\(\psi\)和锚定姿态误差\(\mathbf{e}_{\text{anchor}}\),生成潜在表示\(z = \text{E}(\psi, \mathbf{e}_{\text{anchor}})\)。解码器\(\text{D}\)则结合此潜在表示和其他本体感受输入(proprioceptive inputs),如重力向量\(\mathbf{g}\)、IMU扭转\(\mathbf{V}_{\text{imu}}\)、关节状态\(\theta, \dot{\theta}\)和上一步动作\(\mathbf{a}_{\text{last}}\),重建动作\(\hat{\mathbf{a}} = \text{D}(z, [\mathbf{g}, \mathbf{V}_{\text{imu}}, \theta, \dot{\theta}, \mathbf{a}_{\text{last}}])\)。VAE通过最大化ELBO(Evidence Lower Bound)进行训练:\(\mathcal{L}_{\text{VAE}} = \mathbb{E}_{q_E(z|[c, \mathbf{e}_{\text{anchor}}])}[\|\hat{\mathbf{a}} - \mathbf{a}\|^2] + \beta D_{\text{KL}}[q_E(z | \psi, \mathbf{e}_{\text{anchor}}) \| \mathcal{N}(0, I)]\)
- 状态-潜在扩散模型训练:将训练好的VAE应用于人类动作,收集状态-潜在轨迹\(\tau = [\mathbf{s}_{t-N}, \mathbf{z}_{t-N}, \ldots, \mathbf{s}_{t+H}, \mathbf{z}_{t+H}]\)。这个轨迹包含过去\(N\)个时间步、当前时间步和未来\(H\)个时间步的状态(state)和潜在(latent)表示。然后,训练一个去噪网络\(\mathbf{z}_{\phi}(\tau_k, k)\)来预测干净的轨迹\(\tau\)。该网络通过最小化\(\mathcal{L}_{\text{Diffusion}} = \mathbb{E}[\|\mathbf{z}_{\phi}(\tau_k, k) - \tau\|^2]\)进行自监督学习。
- 预测控制:模型以预测控制(predictive control)的方式运行,允许成本函数同时作用于未来的状态和动作。在推理时,轨迹从高斯噪声开始,通过迭代去噪过程生成。当前的动作则根据最实时的观测从去噪后的当前潜在表示\(z_t\)解码得到。
- 通过引导进行在线优化(Online Optimization via Guidance):
扩散模型通过分类器引导(classifier guidance)支持在线优化。分类器引导将无条件得分函数(score function)\(\nabla_{\tau} \log p(\tau)\)转换为条件得分函数(conditional score function)\(\nabla_{\tau} \log p(\tau | \tau^*)\),其中\(\tau^*\)是期望或最优轨迹。这通过贝叶斯规则实现:\(\nabla_{\tau} \log p(\tau | \tau^*) = \nabla_{\tau} \log p(\tau) + \nabla_{\tau} \log p(\tau^* | \tau)\)。通过将条件似然与一个可微分的任务特定成本函数\(G(\tau)\)关联起来,\(p(\tau^* | \tau) \propto \exp(-G(\tau))\),条件梯度简化为\(\nabla_{\tau} \log p(\tau^* | \tau) = - \nabla_{\tau}G(\tau)\)。这使得模型能够在推理时融入任意可微分的成本函数,实现对未见任务(如摇杆控制、避障、运动补全)的多功能控制,而无需重新训练。
主要成果
- 可扩展的人类运动学习:BeyondMimic能够从约2.5小时的多样化人类动作数据中学习,并在高保真模拟中验证所有动作。30个代表性片段(共15分钟)被部署到物理机器人上,实现了零样本(zero-shot)sim-to-real传输。习得技能涵盖了从静态、平衡关键动作(如单腿站立、从不同姿态站起)到高度动态技能(如单腿跳跃、转身踢、空翻、侧手翻),以及程式化动作(如老年人步行、舞蹈序列)。
- 人类水平的敏捷性:在户外复杂环境下,机器人成功完成了高难度杂技序列和武术动作,包括空中侧手翻(aerial cartwheels),在空中阶段达到31 m/s\(^2\)的峰值加速度和高达20 rad/s的盆骨角速度。机器人还展现了接触密集型控制(contact-rich control),如连续两个侧手翻、地面爬行和从地面跳起,以及如克里斯蒂亚诺·罗纳尔多(Cristiano Ronaldo)的庆祝跳转身等协调全身的时序动作,并能连续重复五次。
- 自然、类人行为:机器人在步行和跑步等任务中展现了类人的自然行为。与人类的地面反作用力(Ground Reaction Force, GRF)曲线对比,机器人在步行中表现出相似的双峰,在跑步中表现出单峰。一项用户研究(\(N=77\))显示,BeyondMimic的动作在70.8%的情况下被认为比Unitree的原生控制器更具“类人性和自然性”,特别是在跑步中获得了84.7%的偏好。
- 多功能人形机器人控制:
- 命令条件下的运动(Command-conditioned Locomotion):机器人能够根据期望速度或路点目标进行零样本(zero-shot)移动,例如在摇杆控制下平稳全向步行,并能在受到大扰动(如踢击)时快速恢复并继续追踪命令。模型能实现平滑的步态转换,例如从步行到跑步,即使在训练数据中这些转换是稀疏且未标注的。
- 运动补全与任务切换(Motion Inpainting and Task Transitioning):通过稀疏的未来关键帧(keyframes)引导,模型能够在线插入、转换和组合敏捷的运动技能。例如,机器人能从步行平滑地过渡到侧手翻,再平滑地返回步行。框架还展示了在不同任务规格间自由切换的能力,如将速度跟随与运动补全任务结合,实现连续的侧手翻序列与步行/跑步的交织。
- 任务组合(Task Composition):通过组合简单的任务特定成本函数,机器人能够解决未见过的复合任务。例如,结合路点追踪成本和障碍物规避成本(基于Signed Distance Field, SDF),机器人能成功绕过障碍物到达目标路点。
局限性与未来工作
该方法存在以下局限性:
- 对底层状态估计系统质量的依赖,感知噪声会传播到生成的轨迹。
- 预测能力有限:当前系统预测范围为0.64秒,足以进行反应性控制和局部避障,但不足以进行需要远距离目标或障碍物推理的长期规划任务。
- 历史依赖性:模型可能会陷入重复的运动模式,需要较大的引导权重,这可能导致在模式切换或高方差状态下去噪过程不稳定。
- 细粒度控制的挑战:引导式优化对粗粒度目标效果良好,但对细粒度目标效果不佳,仍需轻量级的引导权重调整。
未来的工作可能包括:通过传感器融合或学习型估计器改进状态估计;研究减少对历史的依赖以提高响应性和瞬态行为;探索监督微调(supervised fine-tuning)和适配器风格控制层(adapter-style control layers)等方法,以实现对扩散模型的细粒度、可组合轨迹控制。