大规模多构型具身智能新数据集和基准：5.5万条机器人轨迹数据，279项不同任务

西风 2024-12-27 13:12:24 来源：量子位

国家地方共建具身智能机器人创新中心与北京大学计算机学院联合创建

伴随着全球人工智能技术飞速进步，具身智能产业迅猛发展，赋予机器人类人化的泛化能力是具身智能机器人技术的核心目标之一，实现这一目标的关键在于如何使各类机器人本体在面对多样化的环境和任务时，能够展现出卓越的性能。

正如ChatGPT需要海量文本数据来训练一样，想要培养出一个能力全面的机器人，也需要大量优质的训练数据，数据集是具身智能技术发展的重要基石。

与视觉或语言数据的获取相比，收集机器人训练数据远比收集文本或图像数据困难得多，需要在专门的环境中记录机器人的每个关节动作和末端执行器的信息，这个过程不仅需要昂贵的硬件设备，还需投入大量人力来确保数据质量，因而业内目前最具通用性的机器人操作策略主要依赖于在有限多样性条件下收集的数据，大规模多构型具身智能数据集和Benchmark是极为稀缺的资源。

为了解决这个难题，国家地方共建具身智能机器人创新中心与北京大学计算机学院联合推出了一个大规模多构型智能机器人数据集和Benchmark——RoboMIND。

RoboMIND捕捉机器人面对复杂环境、长程任务时的各种交互和经验，从而促进能够掌握不同操作策略的通用模型的训练。

RoboMIND包含5万5千条机器人轨迹数据，涉及279项不同的任务，涵盖了高达61种不同的物体，覆盖了家居、厨房、工厂、办公、零售等大部分生活服务场景。

此外，该数据集包含根据真实场景搭建的数字孪生场景，进一步丰富和扩充了此数据集的多样性，同时提升数据采集效率。机器人构型包含单臂机器人、双臂机器人、人形机器人，手臂末端使用夹爪或者灵巧手。

为了评估RoboMind数据集的质量，研究团队在主流单任务模仿学习模型上（如ACT）和具身多模态大模型上（如OpenVLA、RDT-1B）进行了广泛的评测，发现RoboMIND数据集可以有效提升模仿学习模型在现实场景下任务的成功率。该评测得到了北京智源人工智能研究院的大力支持。

RoboMIND数据集特征分析

多样化构型：

RoboMIND的数据来源包括31,005条Franka Emika Panda单臂机器人轨迹、9,686条“天工”人形机器人轨迹、8,030条AgileX Cobot Magic V2.0双臂机器人轨迹以及6,911条UR-5e单臂机器人轨迹。

研究团队使用自研的“天工”人形机器人，收集了17.4%的数据，其中包含了大量的双臂操作任务，需要较高的双臂协调能力。

多样化轨迹长度：

研究团队计算了每种机器人模型在任务执行过程中的平均任务时长（即每条轨迹中的时间步数）。如图所示，Franka和UR的任务通常具有较短的轨迹（少于200个时间步），适合用于训练基础技能。相比之下，“天工”和AgileX的任务轨迹较长（超过500个时间步），更适合用于长时间跨度的任务训练以及技能组合。

下图展示了四种机器人平台在任务中所涉及的技能数量分布的直方图。

从图中可以看出，AgileX的任务通常涉及两到三种组合技能，这使得任务的时长较长。而“天工”的任务则长度不一，其中一些任务涉及多达五种技能。

为了进一步说明这一点，研究团队选取了一项包含三种技能的AgileX任务，并在图中展示了其双臂操作的轨迹：首先，两只手臂依次执行抓取技能，随后左臂将胡萝卜放置，右臂将其移交给黑色盘子，整个过程需要高水平的协调操作能力。

任务多样性强：

研究团队根据自然语言描述，根据物品大小、使用场景、操作技能等因素，将整个数据集中的任务分为了五大类，分别是：基础技能、精准操作、场景理解、柜体操作、协作任务。任务的具体分布如下所示：

可以看出，除了基础的操作任务，RoboMIND数据集还包含了大量的复杂任务，为通用机器人策略的训练提供了丰富的数据保障。

物品类别丰富：

RoboMIND数据集包含了61种不同的物品类别，具体如下所示。

可以看出，在厨房场景中，数据集不仅包含了常见的食物，如草莓、鸡蛋、香蕉和梨子等，也包括了复杂的可调节物体，如烤箱和面包机。在家庭场景中，数据集既包括了刚性物体，如网球，也包括了可变形物体，如玩具。办公和工业场景则包含了需要精确控制的小物体，如电池和齿轮。

多样化的物体种类不仅增加了数据集的复杂性，也有助于训练能够在各种环境下执行操作的通用操控策略。

语言描述精确：

以AI（Gemini）和人工审核相结合的方式，研究团队为10000条成功轨迹提供详细的语言注释，包括关键物体、重要操作和操作细节等。

RoboMIND数据收集策略

遥操作真机数据采集

与通常通过脚本化收集、或者依靠VR设备的机械运动数据不同，RoboMIND的数据通过自研的遥操作系统进行收集，更自然、连贯和平滑，能够更好地模拟人类的行为和认知过程。

对于Franka、UR-5e机器人和模拟机器人，研究团队按照Gello方法的设置，创建了相应的同类遥操作设备和控制系统。对于AgileX机器人，研究团队采用了内建的双臂遥操作系统。而对于人形机器人“天工”，研究团队结合使用了Xsens动作捕捉服和Gello风格的遥操作设备。

所有数据收集工作都在指定的内部区域进行，且操作人员的轮换最小化，保持统一的收集节奏，遵循内部标准，从而提高数据集的质量。

智能数据平台管理

随着收集数据量的增长，数据的高效记录、传输、管理和分析成为了一个重大挑战。为了支持具身智能系统的设计和开发，研究团队开发了一个智能数据平台，该平台采用云原生架构和分布式计算，可进行大规模数据处理，提供以下四大功能模块：

数据收集：包括实时数据传输、收集设备管理等功能
数据存储：支持PB级存储，能处理结构化和非结构化数据
数据管理：包括数据清洗、质量评估和版本控制
数据处理与分析：对收集的数据进行分析与处理

数据质检

由于所有数据都来源于操作员实时控制系统，可能会因为操作员的身体限制（如疲劳、习惯、注意力分散或外部干扰）而导致错误。为了减轻这些问题，研究团队通过轮换系统和提供舒适环境的方式，帮助操作员保持专注。此外，研究团队还对收集到的所有数据进行质量检查，以确保其可靠性。研究团队还定义了质量保证标准，避免不必要的接触和重复抓取等问题。质量保证过程分为以下三个步骤：