Skip to content

AI Agent 平台架构入门

延展阅读 | 技术认知


什么是 Agent

通用大模型是「你问它答」。Agent 是「你给一个任务,它自己去规划步骤、调用工具、看结果、再调整,直到完成」。

Agent 平台 = 给模型装上 手脚(工具)+ 记忆 + 一个行动循环


你需要知道的第一个判断

能用确定的工作流解决,就别上自主 Agent。

这是 Anthropic 的核心建议。工作流(预先编排好的步骤)可预测、可控、便宜;自主 Agent 灵活,但更贵、更慢、更难控。

作为 PM,面对一个"用 AI 自动化某个任务"的需求,第一个问题不是"怎么实现",而是"这任务到底该用工作流还是 Agent?"——流程确定的走工作流,确实需要随机应变的才上 Agent。


Agent 的核心组件

组件做什么PM 要关心的
编排器驱动「规划→行动→观察」循环任务完成率、步数上限
工具(沙箱执行)搜索、调 API、跑代码权限边界、副作用风险
记忆短期上下文 + 长期跨会话用户体验连续性
人类介入关卡关键操作前暂停等审批哪些操作必须人确认?
可观测/trace记录每一步在干什么出问题时能否追溯?

让 Agent "不失控"的三道防线

  1. 多重上限:最大步数、最大成本、超时——自主性越高,越要硬刹车
  2. 沙箱隔离:工具执行不能直接碰到生产环境
  3. 高危操作人工审批:发邮件、改数据、花钱——这些必须有人点确认

没有控制阀的 Agent,就是一台会自己烧钱、还可能闯祸的失控机器。


什么时候用单 Agent,什么时候用多 Agent

单 Agent 起步,任务复杂到"一个角色扛不动"时再拆。多 Agent(规划者 + 执行者 + 审查者)分工明确,但协调成本和延迟都上升。


常见误区

  • ✗ 流程明确的活,非要上自主 Agent → ✓ 工作流更可控更便宜
  • ✗ 循环不设上限,任模型跑 → ✓ 步数/成本/超时多重兜底
  • ✗ 给 Agent 无限制权限 → ✓ 最小权限 + 沙箱 + 人工确认
  • ✗ 信任工具返回的内容 → ✓ 外部内容一律当不可信输入

PM 核心备忘:Agent 的难点不在"能不能做",而在"怎么让它有用又不失控"。你的工作是定义清楚:① 任务适合工作流还是 Agent?② 哪些操作必须人审批?③ 失败时怎么兜底?

本篇基于 awesome-architecture AI Agent 平台架构模板整理。

基于 AI 时代产品实践整理