将Agent引入RPA，清华联合面壁智能发布自动化新范式APA

量子位的朋友们 2023-11-14 10:26:09 来源：量子位

将人类从繁重的劳动中解放出来

近日，面壁智能联合清华自然语言处理实验室等机构的研究人员共同发布了新一代流程自动化范式 Agentic Process Automation，该范式不仅实现了工作流构建的自动化，更在工作流执行时引入了动态决策的自动化。这一创新将为未来自动化领域带来更高层次的效率和灵活性，将人类从繁重的劳动中解放出来。

论文信息

➤ 项目地址

🔗 https://github.com/OpenBMB/ProAgent

➤ 论文地址

🔗 https://github.com/OpenBMB/ProAgent/blob/main/paper/paper.pdf

研究缘起：将 Agent 技术的灵活性引入 RPA

—

在历史的长河中，自动化是人类技术发展的主要动力，帮助人类从复杂、危险、繁琐的劳动环境中解放出来。自早期农业时代的水车灌溉，到工业时代的蒸汽机，人类一直在不断寻求更加先进的自动化技术，从而解放自身于繁重的工作。随着信息时代的到来，软件作为信息处理、存储和通信的基础成为了人类生产生活密不可分的一环，从而催成了机器人流程自动化（Robotic Process Automation, RPA）技术。其通过人工编制规则将多个软件协调成一个固化的工作流（Workflow），通过模拟人交互的方式来和软件交互实现高效执行。

Robotic Process Automation 与 Agentic Process Automation 的比较

RPA仅能替代简单、机械的人力工作，一些复杂的流程仍旧依赖人工：

1. 编写 RPA 工作流本身需要繁重的人类劳动，成本较高。

2. 复杂任务非常灵活，通常涉及动态决策，难以固化为规则进行表示。

从效率和智能两个方面来比较 RPA 和 APA

幸运的是，最近AI领域兴起的大模型智能体技术（Large Language Model based Agents, LLM-based Agents）也许给自动化技术创造了新的可能性。有没有可能将 Agent 技术的灵活性引入到 RPA 领域中，来进一步减少人的参与呢？

该研究探讨了大模型智能体时代下新型自动化范式 Agentic Process Automation (APA)。和传统 RPA 相比，在 APA 范式中，Agent 可以根据人类的需求自主完成工作流构建，同时其可以识别人类需求中需要动态决策的部分，将自动编排进工作流中，并在工作流执行到该部分时主动接管工作流的执行完成相应复杂决策。

为了探索APA的可能性，该研究工作实现了一个自动化智能体 ProAgent，其可以接收人类指令，以生成代码的方式构建工作流，同在工作流中引入 DataAgent 和 ControlAgent 来在工作流中实现复杂数据处理与逻辑控制。ProAgent 的研究展现了 APA 在大模型智能体时代下的可行性，也揭示了 LLM 时代下，自动化技术的崭新可能性。

APA 方法介绍：工作流构建任务转化为代码生成任务

—

在RPA中，工作流是由一系列工具调用组成的图状结构：节点代表一个原子化的工具调用（如Gmail、Twitter、Google Sheets），而边代表了执行的逻辑顺序（承接、分支、循环）。一个工作流往往包含了对于一个或一类任务的所有先验知识，其中包含解决问题的路径，遇到异常时的处理逻辑等等。因此人编写固化出来的工作流往往是非常稳定周全、非常高效的。

智能体工作流描述语言图示

在 ProAgent 中，由于 LLM 本身在代码数据中进行预训练，学习到了较强代码能力，该研究便基于代码的智能体工作流描述语言 Agentic Workflow Description Language。该语言使用 JSON 实现对工作流中数据的组织与管理，选择 Python 语法实现对工作流的逻辑控制，将控制流中的跳转、循环等直接通过 Python 语法进行表征，同时将工作流中的工具调用封装为 Python Function。于是对于 ProAgent，工作流构建任务便转化为代码生成任务。当接收到人类指令时，ProAgent 便编写相应的 Agentic Workflow Description Language，从而实现了工作流自动化构建。

带有 DataAgent 和 ControlAgent 的智能体工作流描述语言图示

复杂的现实任务中通常会涉及动态决策，单纯的 Python 式的逻辑控则规则以及 JSON 式的数据组织形式在面对灵活的需求时便无能为力，此时便需要引入 agent。因此，该研究工作进一步定义出了两种 Agent 操作：

1. DataAgent：对于一个复杂的数据处理需求，工作流构建时会使用自然语言来描述处理的任务，然后在执行时会初始化一个 DataAgent，其会基于该自然语言描述自主处理并完成该数据处理任务。

‍

2. ControlAgent：对于难以用规则表示的逻辑控制规则，工作流构建时使用自然语言对控制逻辑进行描述，然后在运行时会初始化一个 ControlAgent，其会基于该自然语言描述自主选择工作流后续需要执行的分支。

ProAgent 工作流构建过程说明

ProAgent 使用 ReACT 模式逐步构建工作流，其共包含四个工作流构建步骤：

1. Action_Define：决定在工作流中添加什么工具。2. Action Implement：将工具的输入/输出参数转化为JSON结构，同时将工具的调用封装为Python函数。3. Workflow Implement：定义一个mainWorkflow函数，用以组织整个workflow的逻辑控制与数据处理。

4. Task Submit: 当ProAgent构建完workflow时以该操作标识构建过程结束。

另外，为了优化ProAgent的效果，又引入了几个优化技巧：

1. Testing-on-Constructing：在构建过程中，ProAgent会在一次修改工作流之后对工作流进行测试，以保证工作流的正确性。

2. Function Calling：工作流构建的所有操作均封装为了GPT-4的Function，从而提高对工作流构建过程的控制。

3. Chain-of-Thought：ProAgent在编写工作流代码时，需要对于每个function都要给出注释comment和一个编写plan，从而提高ProAgent工作流构建的性能。

工作流执行过程基于 Python interpreter。给定一个工作流，其对应的 mainWorkflow 函数用作为工作流执行的入口来开始整个执行过程。执行过程遵循 Python 代码执行规则，即按照顺序逐行执行。一旦 mainWorkflow 函数返回，工作流执行就成功完成了。

实例验证：完成兼顾灵活与效率的商业场景任务

—

为了验证 Agentic Process Automation 的可行性，该研究使用 OpenAI GPT-4 作为基础模型，并以一个开源的 RPA 平台 n8n 作为载体，实现了上述的 ProAgent。同时设计了一个需要兼顾灵活与效率的任务：这是一个典型的商业场景，需要从Google Sheets中提取各种业务线的营利数据，同时根据业务是否属于 2B 或是 2C，决定后续的行为。一旦确定业务线为 2C，就会向 Slack 频道发送一条消息。而对于 2B 的业务线，则会向相应的经理发送一封电子邮件，其中包括对业务线的评估和简要的盈利概况。

任务内容

对于该任务，首先它是一个重复性的任务，对于多条产品线，应该走相同的处理流程。其次，分辨一个业务线是 2C 还是 2B 很难通过规则判断，需要涉及 Agent 动态决策来判断后续的工作流执行操作。最后，根据撰写业务线的评估邮件需要一定的智能，所以需要 Agent 的介入。

在 ProAgent 生成中，对于该任务，编写出了一个包含四个原子操作，一个 DataAgent 和一个 ControlAgent 的工作流。总体过程大致如下图所示：

ProAgent 工作流构建过程在案例分析中的说明

可以看到，ProAgent 通过自主编写代码的方式，自动完成了工作流的构建过程，其中无需涉及人工介入。在需要判断业务线是 2B 还是 2C 时，ProAgent 引入了 ControlAgent 来做判断，ControlAgent的Prompt被设置为“Decide Whether the business line is toC or toB”。当业务线为 2B 时，ProAgent 还引入了一个 DataAgent，其任务设置为“Write a email of the business line of profit, together with your suggestion”，从而利用 Agent 的智能来根据不同业务线的实际情况来撰写邮件。

ProAgent 工作流执行过程在案例分析中的说明

在工作流被编写、固化下来以后，工作流就会根据不同的数据自动分支到不同的逻辑进行高效地数据处理了。在处理 2C 业务线数据时，ControlAgent 可以根据业务线描述判断出当前业务线的类型，选择调用 Slack 工具。当遇到 2B 业务线数据时，DataAgent 可以撰写邮件发到相应经理的邮箱中。

总结

—

此次发布的自动化新范式APA是面壁智能联合清华NLP实验室在 Agent 技术上的最新探索成果。该研究提出了大模型时代下新的自动化范式——Agentic Process Automation，和传统Robotic Process Automation技术相比，其可以实现工作流构建的自动化，以及工作流执行时动态决策的自动化。该研究进一步实现了ProAgent并通过实验揭示了大模型智能体在自动化中的可行性与潜力。

除了智能体流程自动化技术，面壁智能和清华 NLP 实验室的研究团队前期在智能体应用框架、单体智能和群体智能等技术上均有深入探索，是最早在 AI 智能体（Agent）底层技术上取得突破的人工智能队伍之一。目前已成功推出了 大模型驱动的 AI Agent “三驾马车”：

👉 AgentVerse，大模型驱动的智能体通用平台 ：招募各种各样的 AI 专家，共同帮助用户解决复杂任务。

👉 XAgent，超强 AI 智能体应用框架：超级“ AI 特工”，可自行拆解复杂任务，并高效执行。

👉 ChatDev，多智能体协作开发框架：让多个不同角色的智能体进行协作，自动化开发软件应用。

随着本次发布的 APA 技术持续发展，相信未来大模型智能体技术会帮助人类实现更高层次的自动化，将人类从各种繁重的劳动中解放出来。

面壁智能

量子位的朋友们

将Agent引入RPA，清华联合面壁智能发布自动化新范式APA

研究缘起：将 Agent 技术的灵活性引入 RPA

APA 方法介绍：工作流构建任务转化为代码生成任务

实例验证：完成兼顾灵活与效率的商业场景任务

—

总结

—

相关阅读

大模型应用，最重要的是逻辑推理能力｜面壁智能李大海@MEET2024

成本2元开发游戏，最快3分钟完成！全程都是AI智能体“打工”，大模型加持的那种

图片理解中文全网最强，面壁智能发布千亿多模态大模型

面壁智能给大模型接入16000+真实API，效果直逼ChatGPT！

全球首次！国产AI开源端侧GPT-4o海外爆火，8B参数iPad就能跑

CPM-Bee 开源满月｜已飞入数十家企业，欢迎更多商用申请

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

将Agent引入RPA，清华联合面壁智能发布自动化新范式APA

研究缘起 ：将 Agent 技术的灵活性引入 RPA

APA 方法介绍：工作流构建任务转化为代码生成任务

实例验证：完成兼顾灵活与效率的商业场景任务

—

总结

—

相关阅读

大模型应用，最重要的是逻辑推理能力｜面壁智能李大海@MEET2024

成本2元开发游戏，最快3分钟完成！全程都是AI智能体“打工”，大模型加持的那种

图片理解中文全网最强，面壁智能发布千亿多模态大模型

面壁智能给大模型接入16000+真实API，效果直逼ChatGPT！

全球首次！国产AI开源端侧GPT-4o海外爆火，8B参数iPad就能跑

CPM-Bee 开源满月｜已飞入数十家企业，欢迎更多商用申请

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

研究缘起：将 Agent 技术的灵活性引入 RPA