什么是智能体(AI Agent)?
约 1124 字大约 4 分钟
2026-04-14
你也许见过这样的介绍:
Agent 就是一个能自己干活的 AI。它会联网搜索、会查资料,会修bug,会调用工具,会自主研究。
听起来很厉害。
这句话没错,但是容易让人产生误解,以为我们的大模型已经进化到拥有很多技能了。实际上,大模型唯一能做的事情,就是接收一段文本,然后预测并输出下一段文本。除此之外,它什么都不会。
那么 Agent 到底是啥?它和大模型的关系是什么?怎样解释 Agent 才不容易产生误解呢?
Agent 本质上就是一个计算机程序,跟别的程序并没有什么本质区别。只不过它里面有一些代码逻辑调用了大模型,并能根据大模型的回答,来决定是要跳转去联网搜索、查天气,还是修改某个你电脑上的文件。
有没有发现,这些联网搜索、查天气、修改文件 等功能,在没有大模型的时代,其实早就已经有了。Agent 就是如何将这些功能跟大模型集成的艺术。
AI Agent = 传统软件 + 大模型
例如,一个会查实时天气的智能体,并不是大模型自己会查实时天气,而是 Agent 程序调用外部 API 来获取实时天气。本质上“查天气”这个动作,还是由传统软件完成的。而智能体的作用,就是告诉大模型:我这里有一些工具,你看看用户的提问需要用到吗?如果需要,请告诉我,我可以帮你调用它,并且把调用结果告诉你,你再去回答用户。
一次“查天气”的交互流程是这样的:
第一轮:
用户在前端输入框输入了一个问题:
今天北京的天气怎么样Agent 接收到用户的问题后,会在后台组装一个提示词,这个提示词包含了用户的原始提问,以及可用的工具清单:
{
"model": "gemini-3.1-pro",
"messages": [
{
"role": "user",
"content": "今天北京的天气怎么样"
}
],
"tools": [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "获取指定城市的当前天气情况",
"parameters": {
"type": "object",
"properties": {
"location": {
"type": "string",
"description": "城市名称,例如:北京"
}
},
"required": ["location"]
}
}
},
{
// 其他工具,省略 ...
}
]
}大模型推理,发现这个问题需要调用 get_weather 工具,于是返回一个 tool_calls 响应:
{
"id": "chatcmpl-9z2a...",
"choices": [
{
"finish_reason": "tool_calls",
"message": {
"role": "assistant",
"content": null,
"tool_calls": [
{
"id": "call_abc123",
"type": "function",
"function": {
"name": "get_weather",
"arguments": "{\"location\": \"北京\"}"
}
}
]
}
}
]
}Agent 接收到大模型的 tool_calls 响应后,会解析出需要调用 get_weather 工具,于是调用天气API,拿到最新的天气数据:
String toolResult = availableTools.get(toolName).execute(toolInput);第二轮:
Agent 将天气 API 返回的结果,拼接到上一次的对话中,再次发送给大模型:
{
"model": "gemini-3.1-pro",
"messages": [
{
"role": "user",
"content": "今天北京的天气怎么样"
},
{
"role": "assistant",
"content": null,
"tool_calls": [
{
"id": "call_abc123",
"type": "function",
"function": {
"name": "get_weather",
"arguments": "{\"location\": \"北京\"}"
}
}
]
},
{
"role": "tool",
"tool_call_id": "call_abc123",
"content": "{\"temperature\": 25, \"humidity\": 60, \"weather\": \"晴朗\"}"
}
]
}大模型发现已经拿到了天气数据,于是直接返回最终答案:
{
"id": "chatcmpl-9z2a...",
"choices": [
{
"finish_reason": "stop",
"message": {
"role": "assistant",
"content": "今天北京天气晴朗,气温25摄氏度,湿度60%。"
}
}
]
}Agent 将大模型的最终答案返回给用户:
今天北京天气晴朗,气温25摄氏度,湿度60%。看到了吗?大模型在这整个过程中,唯一做的事情,就是接收一段文本,然后预测并输出下一段文本。
- 大模型没有记忆,在多轮对话中,智能体只能把对话历史重新发送给大模型
- 大模型没有工具,是智能体告诉大模型有哪些工具,并且帮大模型调用,再把结果重新发送给大模型
在其他地方,你可能看到过这样的 AI Agent 定义:
AI Agent = LLM(大脑) + 规划(思考路径) + 记忆(RAG等) + 工具(Skills)
这里面,只有 LLM 是所谓的 AI,其他都是围绕 LLM 构建的软件工程。本质上, Agent 开发就是带有大模型能力的后端软件开发。
