让大模型操纵无人机，北航团队提出具身智能新架构

克雷西 2023-12-12 14:59:28 来源：量子位

智能体即大脑

赵浩然投稿

量子位 | 公众号 QbitAI

进入多模态时代，大模型也会操纵无人机了！

只要视觉模块捕捉到启动条件，大模型这个“大脑”就会生成动作指令，接着无人机便能迅速准确地执行。

北京航空航天大学智能无人机团队周尧明教授团队等研究人员，提出了一种基于多模态大模型的具身智能体架构。

目前，这种架构已被应用于无人机的操控。

那么这种新的智能体表现如何，又有哪些技术细节呢？

“智能体即大脑”

研究团队利用大模型对多模态数据的理解能力，将真实物理世界的照片、声音、传感器数据等多源信息融合成能体的感知，将对于真实世界的执行器的操作作为智能体的行为。

同时，团队提出了一套“Agent as Cerebrum，Controller as Cerebellum”（智能体即大脑，控制器即小脑）的控制架构：

智能体作为大脑这一决策生成器，专注于生成高层级的行为；

控制器作为小脑这一运动控制器，专注于将高层级的行为（如期望目标点）转换成低层级的系统命令（如旋翼转速）。

具体来说，研究团队认为这一成果主要有三项贡献。

应用于实际的新型系统架构

研究团队提出了一种应用于实际机器人的新的系统架构，将基于多模态大模型的智能体具象化为大脑。

而机器人运动规划器与控制器则被具象化为小脑，机器人的感知系统类比为人的眼、耳等信息收集器，机器人的执行机构类比为人的手等执行器。

△图1 硬件系统架构

这些节点通过ROS相连，通过ROS中消息的订阅与发布或服务的请求与响应实现通信，区别于传统的端到端的机器人大模型控制。

这一架构使得Agent可以专注于高层级命令的产生，对于高层级任务具备更强的智能性，对于实际的执行具备更好的鲁棒性和可靠性。

△图2 软件系统架构

新型智能体

在这一架构下，作者构建了作为大脑的一种智能体AeroAgent。

该智能体主要包括三个部分：

一个自动计划生成模块，具有多模态感知监测能力，同时擅长进行待机模式下的应急突发事件处理。
一个多模态数据记忆模块，可以用于多模态记忆检索和反思，为智能体赋予少样本学习能力。
一个具身智能动作模块，可以建立具身智能体与ROS上其他模块进行稳定控制的桥梁，这一模块提供了对于ROS上其他节点以操作为桥梁进行访问的能力。

同时，一个动作的完成，可能需要多次操作的交互以从传感器获取动作的执行所必需的参数，确保智能体可以根据综合态势感知及所具备的执行器来进行稳定的embodied action的输出。

△图3 AeroAgent模块架构

连接大模型和ROS的桥梁

为了给具身智能体和ROS机器人系统建立桥梁，让Agent产生的操作能够正确地、稳定地发送给ROS并被其他节点成功执行，同时让其他节点所提供的信息让LMM能够读取与理解，团队设计了了ROSchain——

一个连接LLMs/LMMs与ROS的桥梁。

ROSchain通过一套模块和应用程序接口（APIs）简化了大型模型与机器人传感装置、执行单元和控制机制的集成，为智能体接入ROS系统提供了一个稳定的中间件。

为什么选择无人机

至于为什么选择无人机进行该系统架构的测试与模拟，研究团队也做了解释，这主要有三个原因。

首先，如今LMMs中所蕴含的web-scale的世界知识，多为第三人称视角，人型机器人等领域的具身智能是类似于以人类为主体出发的第一人称视角。

而无人机挂载的相机（尤其是下视相机）更加类似于第三人称视角（上帝视角）的具身智能；

另一方面，现阶段的LMMs无论是模型部署还是API服务，通常受限于计算资源导致响应有一定的延迟。

这对于自动驾驶等领域是一个应用的障碍，而无人机的任务规划由于其可以悬停，具备应对延迟的能力。

这两点都导致目前技术发展水平下无人机适合作为先驱进行相关理论与应用的验证。

第二，目前工业无人机领域，如山火救援、农林植保、无人放牧、电力巡检等，多由飞手与专家配合实际操作，智能化任务执行具有工业需求。

第三，从未来发展看，多智能体协同合作在物流、建筑、工厂等领域具备较为明显的需求。

而在这种领域中，无人机作为“上帝视角”的具身智能体，适合作为中央节点的领导者进行任务的分配，其他机器人可看作无人机的执行器的一环，所以这一研究也具有未来的发展前景。

团队在airgen的仿真器上进行了模拟实验，同时选用了DRL等方式作为对照组。结果如下：

在野外火灾搜救的场景中，AeroAgent获得了100分（标准化分数，下同）的成绩，平均每步为2.04分。

而单纯调用LLM或基于DRL的智能体都只获得了29.4分，平均每步0.2，不足AeroAgent的十分之一。

△图4-1山火救援场景

在着陆任务中，AeroAgent也以97.4的总分和48.7的每步平均分超过了其他模型。

△图4-2 海上机坪着陆场景

而在风机巡检的测试中，AeroAgent直接成为了唯一能完成该任务的模型。

△图4-3 风力电机巡检场景

导航任务上，AeroAgent 4.44的每步均分，分别是DRL和纯LLM的40倍和近10倍。

△图4-4 Airgen仿真实验

团队还在真实场景中进行了无人机系统的测试，以一个简单的受困群众引导实验为例进行了案例研究。

△图5 受困群众引导案例实验

团队目前正以这一工作为基础，在某高原牦牛牧场进行无人放牧智能无人机的实验，探索其实际应用的可能性，并将以“予智能以具身”为目标，进行其他机器人/多机器人合作的智能体落地应用探索。

论文地址：
https://arxiv.org/abs/2311.15033

具身智能多模态无人机

克雷西

装满智能体AI的手机，正在呼唤一个“Type-C时刻”2025-04-16
英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练2025-04-15
Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战记录公开2025-04-08
“AI眼镜的终极功能，是AI+社交” | 对话影目科技创始人2025-04-07

让大模型操纵无人机，北航团队提出具身智能新架构

“智能体即大脑”

为什么选择无人机

相关阅读

千元内最好的机器人开发者套件来了：地瓜机器人重磅发布RDK X5

国产具身人形机器人征服复杂场景: 实时感知规划，动态运动告别“盲走”

中国仿生机器人看北京，北京仿生机器人看海淀

智源举办2024具身与世界模型专题峰会，产学研共促技术创新与产业应用

5.28亿融资砸向杭州具身智能公司，清华叉院机器人天才坐镇

极飞无人机IPO申请获受理！主打农业应用，西安电子科技大学校友创立，高瓴百度是股东

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

「千匹马力」被比亚迪打成白菜价：最新汉唐21万起售，比小米SU 7Ultra更小米！兆瓦闪充高阶智驾都标配

SOTA自动绑骨开源框架来了！3D版DeepSeek开源月大礼包持续开箱ing

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理