AI Agent 框架调研与分析报告
AI Agent 框架调研与分析报告
摘要
2026 年的 AI Agent 生态已经不再只是“给 LLM 加工具调用”。更准确的划分应该是:
- Agent SDK:面向业务应用开发,提供 Agent、Tool、Guardrail、Handoff、Tracing 等基础抽象。
- Agent 编排运行时:把多步骤、多 Agent、长任务、人类审批、失败恢复抽象成图或工作流。
- 本地 Agent OS / Gateway:把 Agent 放到用户真实工作环境里,连接消息、文件、系统工具、MCP、长期记忆。
- AI Coding Agent 产品:面向软件工程任务,内置代码库读取、文件编辑、命令执行、PR/CI/CD 等能力。
- Harness Engineering:不是单个框架,而是围绕 Agent 构建上下文、工具、验证、权限和反馈回路的工程方法论。
核心结论是:模型能力正在趋同,真正拉开差距的是 Agent 周围的运行环境。Claude Code、Codex、OpenClaw 这类工具证明了“可执行环境 + 项目知识 + 审批与回滚 + 持续验证”比单次提示词更重要;LangGraph、Microsoft Agent Framework、Harness Agents 则说明生产环境更关心状态持久化、权限、审计和可恢复执行。
分析口径
本文把“AI 框架”按工程边界拆开,而不是按热度排序。原因是不同项目解决的问题不同:
| 类型 | 代表 | 核心问题 |
|---|---|---|
| SDK / 库 | OpenAI Agents SDK、Microsoft Agent Framework | 如何在应用内构建可控 Agent |
| 编排运行时 | LangGraph、CrewAI Flows | 如何表达长流程、多节点、状态和恢复 |
| 本地 Agent OS | OpenClaw、AgentOS | 如何让 Agent 操作个人环境和跨应用数据 |
| 编码代理产品 | Claude Code、Codex、OpenHands | 如何让 Agent 读写代码、运行命令、交付 PR |
| 工程方法论 | Harness Engineering | 如何让 Agent 可靠、可审计、可迭代 |
因此,Claude Code 不应直接和 LangGraph 比“谁更强”;前者是带有完整执行面的产品,后者是构建 Agent 系统的编排底座。
生态趋势
从 Prompt Engineering 到 Harness Engineering
Mitchell Hashimoto 在 2026 年 2 月的文章中把这一类实践称为 Harness Engineering:当 Agent 犯错时,不只是修改提示词,而是改造它所处的环境,让同类错误不再发生。这个环境包括 AGENTS.md / CLAUDE.md、脚本、测试、截图工具、权限规则、验证器和回滚机制。
OpenAI 随后在 Codex 实验报告中给出了更激进的例子:团队用 Codex 构建一个约百万行代码的内部产品,并明确指出工程师的工作从“手写代码”转向“设计环境、表达意图、构建反馈回路”。这说明 Agent 系统的瓶颈正在从“模型能不能写代码”转向“系统能不能定义正确的完成标准”。
Agent 开始需要“操作系统化”
OpenClaw 和 AgentOS 代表另一条路线:不是把 Agent 嵌入单个 App,而是给 Agent 一个本地控制面。它们关心的问题包括:
- 如何统一消息入口、文件、浏览器、系统工具和外部服务。
- 如何维护长期记忆和跨应用实体关系。
- 如何把不同工具能力以 MCP、Skill、Capability 等形式暴露给 Agent。
- 如何在本地优先的前提下处理权限、密钥、沙箱和审计。
这类项目的风险也更高,因为 Agent 不再只是“回答问题”,而是继承了用户机器和账号的真实权限。
生产系统重视确定性和可恢复性
LangGraph、Microsoft Agent Framework、Harness Agents 的共同点是把 Agent 放进更传统的软件工程控制面:
- 每一步有状态。
- 关键动作可审批。
- 执行过程可追踪。
- 失败后可恢复或重放。
- 权限和密钥不直接暴露给模型。
这类能力在 Demo 中不显眼,但在生产环境里比“多 Agent 对话”本身更重要。
代表框架与项目分析
OpenClaw
OpenClaw 是一个自托管的 AI Agent Gateway。官方文档把它描述为连接 Discord、Slack、Telegram、WhatsApp、Signal、iMessage、Teams 等多种消息渠道与 AI coding agents 的本地 Gateway。它的 GitHub README 也强调“运行在你自己的设备上”,以 Gateway 作为会话、渠道、工具和事件的控制面。
它的核心价值在于:
- 入口统一:用户可以从常用聊天工具发起任务,而不是打开单独的 Agent UI。
- 本地优先:会话、配置、工具执行尽量留在用户自己的机器或服务器上。
- 多 Agent 路由:不同 sender、channel、workspace 可以路由到隔离的 Agent 会话。
- 技能和工具生态:通过 Skills、工具和插件扩展 Agent 能力。
主要风险也很明确。OpenClaw 连接真实聊天入口和本地工具,如果默认权限过宽,外部消息、群聊内容、插件或 Skill 都可能成为提示注入和越权执行入口。它更适合有运维和安全意识的个人开发者、研究者、小团队,而不是直接无防护地放进企业内网。
AgentOS
AgentOS 把自己定位为“local operating system for human-AI collaboration”。它不是简单的聊天工具,而是试图为 Agent 提供一个本地知识图谱、能力代理和工具面。
从架构文档看,AgentOS 的核心组件包括:
- Rust engine:负责运行图、执行 skills、解析认证、通过 MCP 暴露给 Claude Code、Cursor 等客户端。
- SQLite memex graph:以
~/.agentos/data/agentos.db存储节点、边和值,作为个人知识图谱。 - Python skills:连接外部服务或提供纯 Agent 工具,通过
@provides(...)声明能力。 - Capability broker:应用只请求能力,Skill 只声明能力,双方不直接互相依赖。
- MCP interface:让支持 MCP 的 Agent 客户端把 AgentOS 当作工具面使用。
AgentOS 的设计亮点是“实体图谱 + 能力代理”。它适合构建长期个人工作记忆,例如跨消息、任务、日历、文档的统一查询。短板是生态仍处于早期,价值依赖大量高质量 Skill 和 Shape 建模,否则容易停留在架构愿景层面。
Claude Code
Claude Code 是 Anthropic 的 agentic coding tool,运行在 terminal、IDE、desktop app 和 web 等多个界面。它能读取代码库、编辑文件、运行命令,并与开发工具集成。
Claude Code 的优势在于产品化程度高:
CLAUDE.md和 rules 能把项目约定写入 Agent 上下文。- MCP 能连接 Google Drive、Jira、Slack 或自定义工具。
- Skills 可以封装团队可复用流程。
- Hooks 能在工具调用前后执行命令、HTTP、MCP tool、prompt 或 verifier agent。
- Subagents 和 agent teams 支持隔离上下文或多实例协作。
- CLI 可以进入 CI/CD、脚本和管道。
Claude Code 的本质不是通用 Agent SDK,而是“软件工程场景的完整 harness”。它适合真实代码库中的增量开发、测试修复、重构、PR 生成和代码审查。它的限制是供应商绑定较强,运行质量高度依赖项目说明、测试体系、权限配置和人工 review。
Harness Agents
Harness Worker Agents 是企业 DevOps 平台中的 Agent 形态。它们不是独立聊天机器人,而是运行在 Harness pipeline 内的 AI-powered automation units。
其关键特点是:
- Agent 是 pipeline step,可嵌入 CI、CD、IaCM、STO、SCS 或 Custom stage。
- 每个 Worker Agent 由 Instructions、Model Connector、MCP Server、inputs、environment variables 组成。
- 继承 Harness 的 secrets、RBAC、pipeline context、trigger 和审计能力。
- Marketplace 提供代码审查、Autofix、Manifest 修复、IaC 安全检查等模板。
- 输出变量可传给后续 pipeline step,用于审批、条件判断和通知。
这类 Agent 的工程意义很强:它把 AI 自动化放进已有交付控制面,而不是另起一个无法审计的外部机器人。适合企业 DevOps、平台工程、安全修复、CI 失败分析等场景。
OpenAI Agents SDK
OpenAI Agents SDK 的核心抽象是 Agent 和 Runner,用于管理 turns、tools、guardrails、handoffs 和 sessions。它更像一个应用开发 SDK,而不是一个完整产品。
它适合:
- 在客服、运营、数据分析等业务应用中嵌入 Agent。
- 用 handoffs 把任务委托给不同专业 Agent。
- 用 guardrails 对输入、输出和工具调用做检查。
- 用 tracing 观察 LLM generation、tool call、handoff、guardrail 和自定义事件。
如果目标是做一个可控的业务 Agent 服务,Agents SDK 比直接裸调模型 API 更合适。但如果任务需要复杂图状态、长时间挂起和恢复,通常还要搭配工作流引擎或持久化层。
LangGraph
LangGraph 是低层级的 Agent 编排框架和运行时,重点不在“自动帮你写 prompt”,而在长期、有状态、多节点的执行。
它的关键能力包括:
- 图结构表达 Agent / function / tool 的控制流。
- checkpoint 持久化状态。
- durable execution 支持中断后恢复。
- human-in-the-loop 可以在任意节点暂停、审批、修改状态后继续。
- 与 LangSmith 等观测工具结合,方便调试复杂执行路径。
LangGraph 适合构建严肃生产 Agent:例如审批流、研究流、客服升级流、数据处理流、需要恢复的长任务。代价是抽象偏底层,工程团队需要自己设计状态、节点、边和错误处理。
CrewAI
CrewAI 主打 collaborative agents、crews 和 flows。Crews 适合角色分工式任务,Flows 则用于更确定的事件驱动工作流。
它的优势是上手快,抽象贴近“团队协作”:
- Agent 有角色、目标、工具、记忆、知识和结构化输出。
- Crew 负责多个 Agent 协作完成任务。
- Flow 提供更可控的步骤、状态、持久化和恢复。
- Enterprise 版本提供部署、触发器、RBAC、监控等平台能力。
CrewAI 适合原型、自动化任务和中等复杂度的多 Agent 应用。若系统需要强一致状态、复杂审批、严格权限和细粒度重放,LangGraph 或 Microsoft Agent Framework 的确定性控制会更合适。
Microsoft Agent Framework
Microsoft Agent Framework 是 Microsoft 将 AutoGen 的多 Agent 抽象和 Semantic Kernel 的企业能力合并后的下一代框架,支持 Python 和 .NET。
它的定位偏企业应用开发:
- Agents 负责 LLM 输入处理、工具调用、MCP server 和响应生成。
- Workflows 提供图式工作流、类型安全路由、checkpoint 和 human-in-the-loop。
- 支持 Foundry、Anthropic、Azure OpenAI、OpenAI、Ollama 等 provider。
- 提供 session state、context provider、middleware、telemetry、MCP clients。
如果团队在 Azure、.NET、Microsoft Foundry 或 Copilot 生态内,Microsoft Agent Framework 是非常自然的选择。它的优势不是最轻量,而是企业集成、类型系统、可观测性和长期维护路径。
OpenHands
OpenHands 是开源的软件开发 Agent 平台,前身是 OpenDevin。它可以让 Agent 像开发者一样写代码、操作命令行、浏览网页、调用 API,并提供 CLI、本地 GUI、云服务和 Software Agent SDK。
OpenHands 的价值在于开放和可定制:
- 适合研究软件工程 Agent 的执行环境、沙箱、轨迹和评测。
- 适合希望自托管 coding agent 的团队。
- 相比 Claude Code / Codex 这类闭源产品,更容易做底层改造和安全审计。
它的问题是生产体验通常不如商业产品顺滑,团队需要自行承担模型选择、沙箱、凭证、成本、质量和部署维护。
横向对比
| 项目 | 类型 | 最强能力 | 主要短板 | 适合场景 |
|---|---|---|---|---|
| OpenClaw | 本地 Gateway / Personal Agent | 多消息渠道、本地优先、多 Agent 路由 | 权限与提示注入风险高,生态仍在快速变化 | 个人助理、跨聊天工具自动化、本地 Agent 实验 |
| AgentOS | 本地 Agent OS | SQLite memex graph、Capability broker、MCP 工具面 | 价值依赖 Skill/Shape 生态成熟度 | 个人知识图谱、长期记忆、跨应用上下文 |
| Claude Code | 编码代理产品 | 代码库操作、命令执行、Hooks、Skills、Subagents | 供应商绑定,需强测试和 review | 日常开发、重构、测试修复、PR 自动化 |
| Harness Agents | DevOps Agent 平台 | Pipeline-native、RBAC、Secrets、审计、触发器 | 依赖 Harness 平台 | 企业 CI/CD、DevOps、安全修复、IaC 审查 |
| OpenAI Agents SDK | Agent SDK | Handoffs、Guardrails、Tracing、业务嵌入 | 长流程状态需额外设计 | 客服、运营、业务 Agent、工具调用应用 |
| LangGraph | 编排运行时 | 图编排、持久化、恢复、HITL | 抽象偏底层,上手成本较高 | 生产级长任务、多步骤审批、复杂状态机 |
| CrewAI | 多 Agent 框架 | Crews + Flows,上手快 | 强控制和审计能力需额外补充 | 原型、多角色协作、自动化流程 |
| Microsoft Agent Framework | 企业 Agent 框架 | .NET/Python、workflow、type safety、telemetry | 生态偏 Microsoft,框架较重 | Azure / .NET 企业 Agent 应用 |
| OpenHands | 开源 coding agent 平台 | 开放、可自托管、软件开发 Agent SDK | 产品体验和运维成本较高 | Coding agent 研究、自托管开发代理 |
技术选型建议
个人开发者
如果目标是提高日常编码效率,优先选 Claude Code / Codex / OpenHands 这类 coding agent,而不是先从 LangGraph 搭底层框架。真正能提升效率的是:
- 写好
AGENTS.md/CLAUDE.md。 - 保证项目有可运行测试、lint、format 和截图验证工具。
- 把常见错误沉淀成脚本、hook、rule 或 skill。
- 限制 Agent 权限,避免直接放开危险命令。
企业 DevOps / 平台工程
如果团队已有 Harness,Harness Agents 的 pipeline-native 模式最值得关注。它避免了“外部 AI bot 持有一堆 token 后到处执行”的治理问题,把 Agent 放进已有 RBAC、Secrets、审计和审批流里。
如果团队在 Azure / .NET 生态,Microsoft Agent Framework 更适合做可维护的企业 Agent 应用。
复杂业务 Agent
需要明确状态机、审批、重试和恢复时,优先考虑 LangGraph 或 Microsoft Agent Framework Workflows。不要用一串 prompt 和回调硬拼长期任务,否则后期很难排查失败位置。
个人知识管理 / 本地 AI OS
如果关注“Agent 能否理解我的所有工作上下文”,可以关注 AgentOS。它的 memex graph 思路比传统 RAG 更系统:数据不是一堆文档 chunk,而是人、任务、消息、事件、文档之间的关系。
如果关注“从任何聊天入口调度个人 Agent”,可以关注 OpenClaw。但必须先处理安全边界:白名单、沙箱、权限分级、日志、远程暴露策略和插件供应链。
风险与安全问题
AI Agent 框架的主要风险不是“回答错了”,而是“带着真实权限错误地行动”。需要重点关注:
- 提示注入:邮件、网页、聊天消息、Issue、PR 评论都可能诱导 Agent 泄露数据或执行危险动作。
- 权限继承:本地 Agent 往往继承用户账号、shell、浏览器、云服务 token 的权限。
- 工具越权:工具描述不清、MCP server 权限过大、Skill 未隔离,会扩大攻击面。
- 状态污染:长期记忆、项目规则、Skill 文档被污染后,会影响后续所有会话。
- 供应链风险:社区 Skill、插件、MCP server、自动安装脚本都可能成为入口。
- 不可审计执行:没有 trace、日志、checkpoint、审批记录时,出错后无法定位责任链。
最低限度的工程基线应包括:
- Agent 只拿完成任务所需的最小权限。
- 高风险工具默认需要人工审批。
- 所有外部输入进入 Agent 前标记为 untrusted。
- 工具调用、文件修改、网络访问、密钥读取必须有日志。
- 关键工作流必须有测试、回滚和人工 review。
- 不把密钥、cookie、生产数据库写权限直接暴露给通用 Agent。
结论
AI Agent 框架的竞争重点正在从“谁能调用更多工具”转向“谁能给 Agent 一个更可靠的工作环境”。从这个角度看:
- Claude Code / Codex 代表成熟 coding harness。
- OpenClaw / AgentOS 代表本地 Agent OS 和个人工作入口。
- LangGraph / Microsoft Agent Framework 代表生产级状态编排。
- Harness Agents 代表企业 DevOps 控制面里的 Agent。
- OpenAI Agents SDK / CrewAI 代表较容易落地的应用开发框架。
- Harness Engineering 则是贯穿所有路线的底层方法论。
未来真正有价值的 Agent 系统不会只是“更聪明的模型”,而是由模型、工具、状态、权限、评测、审计和人类判断共同组成的工程系统。对开发者来说,最重要的能力也会从写一次性 prompt,转向设计能让 Agent 持续正确工作的环境。
参考资料
- OpenClaw Docs
- OpenClaw GitHub
- AgentOS Docs
- AgentOS Architecture Overview
- Claude Code Docs
- Claude Code Agent SDK Features
- Harness Worker Agents
- Mitchell Hashimoto: My AI Adoption Journey
- OpenAI: Harness engineering, leveraging Codex in an agent-first world
- OpenAI Agents SDK
- LangGraph Overview
- LangGraph Durable Execution
- CrewAI Docs
- Microsoft Agent Framework Overview
- OpenHands GitHub