人类直觉即代码:Ego-Pi实现5分钟跨Embodiment 迁移,拓展Tesollo灵巧操作范式

摘要

斯坦福大学联合 Meta 发布的 Ego-Pi 研究,针对性解决人形机器人训练数据成本高、高自由度硬件与 VLA 模型适配难等行业痛点。该研究创新性采用第一视角人机数据联合训练方案,实验全程搭载 Tesollo DG-5F-M 五指灵巧手,凭借其高自由度与强兼容性完成核心验证。本文从技术原理、实验设计、核心创新及应用价值等维度,拆解方案亮点与 Tesollo 硬件的支撑作用,为具身智能研究提供参考。

关键词:Ego-Pi;人机协同训练;VLA 模型;Tesollo DG-5F-M;跨形态学习

 

 

1. 研究背景与核心痛点

人形机器人技术快速发展背景下,传统训练模式的短板愈发明显:

  • 数据成本高昂:机器人学习新任务需大规模真机数据采集,周期长、投入大;
  • 软硬件适配瓶颈:主流 VLA 模型动作输出上限仅 32 维,而 Tesollo DG-5F-M 等高自由度灵巧手需 58 维(单手 29 维)动作空间,兼容性制约研发;
  • 泛化能力不足:纯机器人训练难以理解人类任务逻辑,规则类作业表现受限。

 

2. 整体解决路径

 

Ego-Pi 提出轻量化解决方案:以人类第一视角演示数据与机器人数据 1:1 联合训练,用少量人类数据补充任务语义,让机器人自主重组技能;通过工程优化突破维度限制,实现 VLA 模型与 Tesollo 灵巧手的兼容,兼顾降本、增效与泛化能力,具备良好可复现性。

 

3. 实验设计与 Tesollo 硬件支撑

 

实验流程标准化,核心设计如下:

  • 数据采集:仅需 5~13 分钟人类第一视角素材,无需腕部相机,成本极低;
  • 分组对照:设置纯机器人训练对照组与人机共训实验组,覆盖分拣、打包、装箱三大场景;
  • 硬件选型:统一采用 Tesollo DG-5F-M 灵巧手,其 20 自由度全驱结构、250Hz 控制频率与 ROS2 生态,为高维动作算法提供稳定支撑。

 

 

4. 核心创新与硬件适配逻辑

4.1 算法创新

证实人类第一视角数据不仅优化性能,更能赋予机器人任务语义理解能力,支持未知规则作业与技能组合,无需新增机器人数据。

4.2 工程适配创新

 

针对 Tesollo DG-5F-M 的 58 维动作需求,采用交错令牌(Token)拆分技术,将高维动作拆分为两组令牌输出,不修改预训练模型权重即可完美适配,为同类硬件提供通用方案。

 

5. 实验结果与硬件价值验证

对照实验数据充分印证方案有效性:

 

测试场景

人机联合训练(实验组)

纯机器人训练(对照组)

番茄分拣

37/40

16/40

产品打包

9/10

1/10

箱体装箱

14/15

4/15

 

数据显示,人机协同训练成功率大幅提升,而 Tesollo DG-5F-M 的精准运动控制的稳定性,保障了实验结果的客观性。

 

6. 核心价值与拓展方向

6.1 多维价值

  • 科研价值:构建轻量化人机训练范式,破解 VLA 模型与 Tesollo 类高维硬件适配难题;
  • 硬件价值:Tesollo DG-5F-M 凭借高自由度、强兼容性、易部署特性,成为第一视角学习与 VLA 微调的主流实验硬件;
  • 行业价值:前沿算法 + Tesollo 成熟硬件的组合,为研发团队简化流程、降低实践难度。

6.2 未来方向

可围绕多场景迁移、多传感器融合(适配 Tesollo 指尖触觉模块)、高维仿生算法等方向深耕,挖掘技术更多应用潜力。

 

结语

Ego-Pi 为人形机器人训练提供了全新思路,而 Tesollo DG-5F-M 作为实验核心硬件,其高维动作支撑与稳定性能成为成果落地的关键。期待国内科研团队以 Tesollo 灵巧手为载体,基于本方案开展联合研究,共同推动具身智能产业发展。

 

 

论文地址:https://arxiv.org/abs/2606.08107

 

 

 

文章详情

 

创建时间:2026-06-15 10:54

信倍通科技(北京)有限公司

 

ICT Tech (Beijing)Co., Ltd