无标签

发布日期: 2026-04-28

Liang Heng∗1,2,3 Haoran Geng∗†1 Kaifeng Zhang3 Pieter Abbeel1 Jitendra Malik1
1University of California, Berkeley 2Peking University 3Sharpa ∗Equal Contribution † Project Lead

摘要：

灵巧操作是机器人系统的基石能力，旨在以类似人类的方式与物理世界进行交互。尽管基于视觉的方法发展迅速，但触觉感知对于细粒度控制仍然至关重要- -特别是在非结构化或视觉遮挡的环境中。我们提出了一种表征学习方法ViTacFormer，它耦合了一个交叉注意力编码器来融合高分辨率的视觉和触觉，以及一个预期未来接触信号的自回归触觉预测头。在这个架构的基础上，我们设计了一个易于挑战的课程，它稳定地细化了视触觉的潜在空间，提高了准确性和鲁棒性。学习到的跨模态表示驱动多指手的模仿学习，从而实现精确和自适应的操作。在一系列具有挑战性的真实世界基准测试中，我们的方法比之前最先进的系统实现了大约50 %的成功率。据我们所知，它也是第一个用拟人手自主完成需要高度精确控制的长视野灵巧操作任务- -成功执行多达11个连续阶段，并持续操作2-5分钟。

背景：

灵巧操作已经成为一个重要的研究前沿，在抓取[ 32、44、31]、手内操作[ 39、13、23、34、4]、手内定位[ 3 ]、关节物体操作[ 1、16、5、43、11、9、10]和可变形物体操作[ 20、35、48、33 ]等任务中都有应用。同时，行为克隆( BC ) [ 28、27、30]为灵巧操作提供了端到端的通用解决方案。在BC模型中，扩散策略( diffusion policy，DP ) [ 6 ]利用扩散模型[ 29、15 ]学习以机器人观测为条件的专家动作。由于扩散模型[ 29、15 ]善于从不同的数据输入中捕获多模态，因此扩散策略在机器人应用中显示出良好的效果[ 47 ]。三维扩散策略( 3D diffusion policy，DP3 ) [ 42 ]将三维点云作为机器人观测值。与DP相比，它更具有泛化性，因为学习到的表示从3D数据中捕获几何信息。动作分块转换器( ACT ) [ 46 ]将BC模型视为条件变分自编码器。它从多样化的专家数据输入中学习多模态信息。实证研究[ 47 ]表明，在收集数据有限的情况下，ACT [ 46 ]优于DP [ 6 ]。我们的ViTacFormer是在ACT [ 46 ]的基础上构建的，利用了在不同的专家数据输入中捕获多模态的优势。它为视触觉灵巧操作提供了一种跨模态的表示学习。学习到的表示能够对多指灵巧手进行精确和自适应的操作。

然而，对于视触觉灵巧操作[ 24、41 ]，目前仍缺乏有效的跨模态表示学习模型。我们的ViTacFormer提出了一种基于交叉注意力的自回归模型，用于未来的触觉预测和动作生成。实证研究表明，ViTacFormer开启了视触觉表征灵巧操纵的力量。特别地，Vi TacFormer能够熟练掌握长视野灵巧机器人任务。
图2：ViTacFormer的神经网络结构是一个条件变分自编码器。左边：一个基于Transformer的编码器将动作序列和机器人本体感觉映射到动作风格变量z。右：基于Transformer的编码器-解码器使用风格变量z、机器人本体感觉(关节)和视触觉观测值自回归预测未来的触觉信号并生成动作。
[图片]
图2展示了我们的Vi TacFormer的神经网络架构。这种架构基本上是一个条件变分自编码器。在图2的左边，有一个基于Transformer的编码器。它将机器人的本体感觉(关节)和专家动作序列映射为风格变量z。在图2的右边，有一个基于变压器的编码器-解码器。首先，它使用基于交叉注意力的多模态整合框架从视觉和触觉观察中提取表征。接下来，它对未来的触觉信号进行自回归预测，从而生成具有预测未来触觉信号的动作。风格变量z在训练时从专家论证中采样，而在推理时从高斯噪声中采样。

视觉观察和触觉信号具有相似的语义信息。传统的神经网络架构将视觉和触觉的观测输入作为朴素令牌融合。这些模型没有考虑视觉和触觉观测之间的相关信息。交叉注意力是一种常用于Transformer的机制，特别是在涉及多模态数据或与外部知识交互的任务中。它允许模型同时关注两个输入序列的不同部分，使其能够捕获它们之间的相互作用。因此，基于交叉注意力的多模态整合促使智能体捕获不同数据输入之间的依赖关系。

✨ ViTacFormer 提出了一种新颖的视觉-触觉框架，该框架利用交叉注意力编码器融合高分辨率视觉和触觉信息，并结合自回归触觉预测头来预测未来的接触信号。
💡 该方法采用两阶段课程学习策略以实现鲁棒的表征学习，并强调预测未来触觉状态对于实现精确和自适应的灵巧操控至关重要。
🚀 ViTacFormer 在多项真实世界任务中表现显著优于现有SOTA方法，成功率提高约50%，并且首次在真实机器人上自主完成复杂的长周期灵巧操控任务。

Dexterous manipulation是机器人系统与物理世界进行类人交互的基础能力。尽管基于视觉的方法发展迅速，但触觉感知对于精细控制仍至关重要，尤其是在非结构化或视觉受遮挡的环境中。本研究提出ViTacFormer，一种学习跨模态表征的方法，它将交叉注意力编码器与自回归触觉预测头相结合，用于融合高分辨率视觉和触觉信息，并预测未来的接触信号。
[图片]

问题提出与硬件设置

该研究旨在解决灵巧双臂操作中的模仿学习问题。给定专家轨迹数据集 $\mathcal{D} = \{\tau_i\}_{i=1}^N$ ，其中每个 $\tau_i = \{(o_t^i, a_t^i)\}_{t=1}^{T_i}$ 包含多模态观测 $$o_t^i$$ （机器人本体感受 $$j_t^i$$ 、视觉观测 $$v_t^i$$ 和触觉观测 $$h_t^i$$ ）以及相应的动作 $$a_t^i$$ 。目标是学习一个策略 $\pi_\theta$ ，将观测映射到动作： $a_t = \pi_\theta(o_t)$ 。硬件系统由两个Realman机器人手臂组成，每个手臂配备SharpaWave灵巧手。视觉观测通过两个腕部安装的鱼眼相机和一个顶部安装的ZED Mini立体相机捕获。触觉感知由指尖嵌入的高分辨率（320x240）触觉传感器实现。高质量的视觉-触觉演示数据通过定制的外骨骼远程操作系统收集，该系统包含机械外骨骼手套和提供沉浸式视觉反馈的VR头显，并实时叠加触觉反馈。所有数据流（RGB帧、关节状态和压缩触觉图）都经过时间同步并记录，以构建多模态专家轨迹。

方法

ViTacFormer的核心思想是建立一个统一的视觉-触觉框架，通过深度跨模态表征学习实现精细、可泛化的操作。

基于交叉注意力的多模态集成（Cross-Attention-Based Multimodal Integration）：
传统的神经网络模型在融合视觉和触觉输入时，常采用简单的token拼接，未能充分利用两种模态间的相关信息。ViTacFormer引入了交叉注意力机制来融合视觉和触觉观测，以提取它们之间相关的语义信息。具体而言，视觉观测的“键”（Keys, K）和“值”（Values, V）与触觉信号的“查询”（Queries, Q）进行计算，反之亦然。这使得模型能够同时关注两个输入序列的不同部分，捕捉它们之间的相互作用。最终，通过交叉注意力生成的特征被拼接成隐藏状态，供后续学习使用。
自回归建模与触觉信号预测（Auto-Regressive Modeling with Tactile Signal Forecasting）：
该方法提出预测未来的触觉信号，这促使机器人系统关注接触信号的变化，并将潜在的未来结果编码到其潜在表征中。动作生成过程分为两步：
首先，模型利用风格变量 $$z$$ 、当前机器人本体感受（关节信息）以及视觉-触觉观测来预测未来的触觉tokens。
其次，将这些预测的未来触觉信号与当前输入tokens拼接，用于生成动作。值得注意的是，视觉-触觉信号的交叉注意力集成在预测未来触觉信号和生成动作这两个阶段都进行了两次。
考虑到预测的触觉信号在训练初期可能噪声较大，本研究引入了**两阶段课程学习（two-phase curriculum）**策略：在训练的前75%阶段，使用真实（ground-truth）未来触觉tokens来稳定表征学习；在最后25%阶段，则转向使用预测的未来触觉信号进行训练，以提升模型的鲁棒性。
神经网络架构与学习过程（Neural Network Architecture and Learning Procedure）：
ViTacFormer的架构是一个条件变分自编码器（Conditional Variational Auto-Encoder, CVAE）。

Transformer-based编码器（左侧）：将机器人的本体感受（关节信息）和专家动作序列映射到一个风格变量 $$z$$ 。在训练时， $$z$$ 从专家演示中采样；在推理时，它从高斯分布中采样。
Transformer-based编码器-解码器（右侧）：首先，它通过基于交叉注意力的多模态集成框架从视觉和触觉观测中提取表征。然后，它自回归地预测未来的触觉信号，并利用这些预测的未来触觉信号生成动作。

模型的训练损失函数为：
$L = w_1 \cdot L_{KL} + w_2 \cdot L_{JA} + w_3 \cdot L_{tactile} + w_4 \cdot L_{arm}$
其中， $$w_1, w_2, w_3, w_4$$ 是超参数。
$L_{KL}$ 是动作风格变量与高斯分布之间的KL散度。
$L_{JA}$ 是预测动作与真实动作（关节角度）之间的L1损失。
$L_{tactile}$ 是未来触觉信号与真实触觉信号之间的L1损失。
$L_{arm}$ 是基于手臂末端执行器的辅助监督，被经验性地发现对灵巧操作训练非常有用。
$L_{arm} = \lambda_1 \cdot L_{position} + \lambda_2 \cdot L_{rotation}$
其中， $\lambda_1, \lambda_2$ 是超参数， $L_{position}$ 是手臂末端执行器位置之间的L2损失， $L_{rotation}$ 是手臂末端执行器旋转之间的L1损失。

实验与结果

为评估ViTacFormer的有效性，研究构建了首个综合性的真实世界视觉-触觉灵巧操作基准，涵盖短周期和长周期任务。短周期任务包括：插栓、扭瓶盖、擦花瓶和翻书。长周期任务是：制作汉堡包（包含11个连续阶段）。每个任务仅使用50条专家轨迹进行训练，使其更具挑战性。
通过与最先进的模仿学习算法（如DP、HATO、ACT、ACTw/T）进行比较，ViTacFormer在所有基准测试中，成功率比现有系统高出约50%。例如，在短周期任务中，ViTacFormer在插栓和扭瓶盖任务上达到100%成功率，在擦花瓶和翻书任务上达到90%成功率。
在制作汉堡包的长周期任务中，ViTacFormer是第一个在真实机器人上自主完成此类任务的系统，成功执行了11个连续阶段并持续操作2.5分钟。人类标准化得分（HNS）显著高于基线（0.88 vs 0.61）。
消融研究表明，ViTacFormer的每个组成部分都对操作性能有积极贡献：交叉注意力（w/ CrossAttention）显著提升了视觉与触觉的知识融合；预测下一触觉tokens（w/ NextTouchPred）捕捉了触觉观测的时间差异，提高了操作稳定性；自回归利用预测的未来触觉tokens作为输入（w/ AutoRegressive）简化了动作推理过程。
对失败案例的分析揭示了基线的不足，例如：插栓任务中对孔洞位置缺乏感知；扭瓶盖任务中对瓶盖开合状态缺乏感知；翻书任务中视觉与触觉信息融合不足。这些分析进一步印证了ViTacFormer中各项设计的必要性。

实施细节

ViTacFormer模型接收多模态输入：

视觉输入：四路同步相机视图，包括ZED Mini立体相机（180x320）和两路腕部安装的鱼眼相机（256x280），所有帧通过视觉骨干网络编码为图像tokens。
本体感受输入：58维向量，包含左右臂、左右手的关节自由度以及颈部自由度。使用6帧的时间窗口，输入形状为(6, 50)。
触觉输入：10个指尖各有3轴力矩传感器，共20个触觉通道。收集18帧数据（[18, 3]），拼接成原始触觉张量[18, 60]。此外，计算帧间差值（[18, 60]），与原始信号拼接形成最终触觉输入[18, 120]。
动作输出：策略以10Hz频率运行，每个决策步骤生成100帧（100, 50）的高频动作序列，其中50是机器人的总控制维度。
模型在2块NVIDIA H20 GPU上训练100个epochs，使用Adam优化器，学习率1e-4，批处理大小128。

局限性与结论

该方法的局限性在于：作为模仿学习方法，其策略缺乏自主泛化到新任务的能力，仍依赖于人类远程操作进行数据收集。此外，在触觉反馈不那么关键的场景中，模型的稳定性可能受到传感器噪声和表征学习过程限制的影响。
总之，ViTacFormer是一个统一的视觉-触觉灵巧机器人操作框架，通过深度跨模态表征学习，融合视觉和触觉信息，并整合预测性触觉建模。其基于课程的训练策略进一步增强了表征的稳定性。ViTacFormer显著优于现有基线，成功率提高了约50%，并且首次在真实机器人上完成了长周期灵巧操作任务。这项工作为通过视觉和触觉的原则性集成，实现可泛化、高精度的机器人操作开辟了新的可能性。

Jianbo.Yuan

https://jianbo-yuan.github.io/BlogNotes/BlogNotes/2026/04/28/ViTacFormer-Learning-Cross-Modal-Representation-for-Visuo-Tactile-Dexterous-Manipulation/