智能体基本概念：从感知到行动的循环

📖 本文是学习 Hello-Agents 项目时整理的笔记与思考。Hello-Agents 是 Datawhale 社区出品的开源智能体学习教程，全名《从零开始构建智能体》，目前已在 GitHub 收获超过 13k Star。

文章已同步发布到微信公众号【浪浪山客栈】
https://mp.weixin.qq.com/s/ESHjvHP2tXjZuP6fY2xOxw

什么是智能体？

智能体（Agent）是人工智能领域的一个核心概念。简单来说，一个智能体就是通过传感器感知环境，并自主地通过执行器采取行动的系统。

这个定义看起来很抽象，但其实我们身边有大量的例子：扫地机器人通过摄像头和距离传感器感知房间布局，然后控制轮子和吸尘器采取清扫行动；自动驾驶系统通过激光雷达和摄像头感知路况，然后控制方向盘和油门做出驾驶决策。即便是一个简单的恒温器，也是一种智能体——它感知当前温度，并通过开关空调来响应。

理解智能体，需要先厘清四个基础概念：

光有上面四个要素还不够。当我们想要设计或分析一个智能体时，我们需要更系统地描述它的任务环境——也就是智能体活动所处的环境，以及它需要在其中完成的任务。

AI 领域通常使用 PEAS 模型来规范地描述一个任务环境：

以一个 AI 代码助手为例，用 PEAS 模型描述如下：

PEAS 模型的价值在于，它帮助我们在设计智能体之前就把问题想清楚：智能体的目标是什么？它能感知什么？它能做什么？从而避免设计上的盲区。

理解了智能体"是什么"，接下来看它"如何运转"。

智能体运行机制的核心是一个循环（Loop）。这个循环可以用以下四个步骤来描述：

感知（Perception）
    ↓
思考（Thought）：规划 && 工具选择
    ↓
行动（Action）
    ↓
观察（Observation）：行动引起环境与状态变化，产生新的观察
    ↓
（回到感知，继续下一轮循环）

用英文表达即：Perception → Thought (Planning && Tool Selection) → Action → Observation

每一步的含义如下：

1. 感知（Perception）
智能体通过传感器获取当前环境的状态信息。对于大语言模型驱动的 AI 智能体来说，这一步通常是接收用户的输入、读取工具的返回结果，或者获取上下文记忆。

2. 思考（Thought）
这是智能体的"大脑"在工作。它包含两个紧密相关的子过程：

对于现代 AI 智能体而言，"思考"这一步通常由大语言模型（LLM）来承担——模型根据当前的上下文推理出下一步行动。

3. 行动（Action）
智能体将思考的结果转化为具体操作，通过执行器作用于环境。例如调用搜索 API、执行一段代码、向用户发送一条消息，或者操作文件系统。

4. 观察（Observation）
行动会引起环境的变化，或产生新的反馈信息。智能体将这些变化和反馈作为新的输入，形成新一轮循环的起点。比如执行代码后得到的报错信息、搜索后返回的结果、用户对上一步操作的回复——这些都是"观察"。

这个"感知-思考-行动-观察"的循环，是智能体区别于普通程序的关键所在。

普通程序是线性的：输入进去，输出出来，结束。而智能体是持续与环境交互的：它的每一次行动都会影响环境，环境的变化又会触发新的感知，进而引发新的思考和行动。这种反馈机制让智能体能够在不确定的环境中自主地迭代调整，逐步逼近目标。

正因如此，智能体特别适合处理那些步骤不固定、中间需要根据结果动态调整的复杂任务——比如自主完成一项研究、调试一个复杂的 Bug、或者在多轮对话中持续帮助用户解决问题。

理解这些基础概念，是深入学习智能体系统设计的第一步。无论是 ReAct、AutoGPT 还是各类 Agentic Framework，其底层逻辑都可以追溯到这个简洁而强大的循环模型。