引领未来的AI Agent：探索其工作原理

2024年5月9日 · 38 字 · 1 分钟

前面的内容中我们讨论了LLM和RAG，今天我们来学习下目前爆火的AI Agent技术。

什么是AI Agent？

简单来说，AI Agent是一种智能系统，它能自行完成任务、学会并适应其所处环境。这类代理利用模仿生物机制的简化结构来理解外界环境，并作出相应的决策来与环境互动。智能代理正变得在人工智能领域越来越重要，它们通过自动化、创新能力和合作性，推动了技术的创新和应用的改变。这些代理不仅能单独处理复杂问题、与人和其他代理合作以提升工作效能和产出，而且还在模拟人类行为、处理庞大数据及提供情感支持等方面，逐渐地改变我们的日常生活和工作模式。

AI Agent工作流程

先说一下人类在现实世界的工作流程：

我们基于对这个世界的观察，结合自己的记忆和对世界的知识理解，进而做出规划、决策和行动；而行动又会反作用于环境，给我们新的反馈，人类结合对反馈的观察，继而再做决策，以此循环往复。

AI Agent是类似的，主要操作过程可以划分为如下几个环节：

感知与分析(Perception)：AI Agent首要任务是对其环境进行感知，这可能包括数据的搜集与分析。
决定与规划(Planning)：根据搜集到的信息，AI Agent会制定相应的计划或做出决策。
实施(Action)：根据规划，AI Agent会调用工具(Tool Use)执行相应的动作。
学习与适应(Feedback)：智能代理会根据执行结果以及环境反馈进行学习与行为调整。

举个例子方便理解（仅供参考，请勿作为现实世界的参考）：

你告诉AI说自己发烧了，AI会收集你的体温数据，这就是感知（搜集体温数据）过程。
AI会根据采集到的体温数据决定后续行动，如果体温<=37度，属于正常的人体温度范围，AI不会采取行动；如果体温>37度，有可能发烧，AI会尝试在线买药送上门。
AI根据第2步的方案，如果需要买药，AI会调用在线买药接口（Tool）下单，你支付之后等着收货即可
如果你的体温是37.1度，发现不需要吃药，你告诉AI37.1度不用吃药，AI学习之后下次就不会买药了。

AI Agent的组成部分

Agent可以被视为LLM+Planning+Action(Tool Use)+Feedback。例如，像ChatGPT、llama3这样的模型，它们不仅具备Planning和Feedback（需要状态存储）的能力，最关键的是Action(Tool Use)环节。这一环节需要我们自行开发，以实现具体的应用场景。举个例子，如在线购药服务，我们就需要开发相应的接口，例如集成美团、叮当等平台的购药服务，与LLM无缝对接。

下图是Agent的核心组成模块：

agent-overview

可以说，只要是计算机能做到的事情，AI Agent都能做到！Agent是真正主动释放LLM能力的关键。LLM作为大脑，Agent为LLM提供了行动的主观能动性。

结论

AI Agent正引领着人工智能的未来。它们是集感知、规划、行动、反馈于一体的智能系统，能够模仿人类与环境的互动过程来自主完成任务。通过不断学习和适应，这些智能代理强化了机器的自动化、创新能力，并在技术与应用的各个领域发挥着日益重要的作用。随着越来越多的工具和接口的开发整合，AI Agent将能够更加深入地影响我们的生活方式，提高我们工作的效率和质量。

下一期将演示如何基于开源技术栈构建你自己的Agent！

重磅！ChatGPT团队官宣船新版本的多模态大模型GPT-4o，完全免费！白嫖GPT4.0！