AI Agent 框架调研与分析报告

AI Agent 框架调研与分析报告

摘要

2026 年的 AI Agent 生态已经不再只是“给 LLM 加工具调用”。更准确的划分应该是:

  • Agent SDK:面向业务应用开发,提供 Agent、Tool、Guardrail、Handoff、Tracing 等基础抽象。
  • Agent 编排运行时:把多步骤、多 Agent、长任务、人类审批、失败恢复抽象成图或工作流。
  • 本地 Agent OS / Gateway:把 Agent 放到用户真实工作环境里,连接消息、文件、系统工具、MCP、长期记忆。
  • AI Coding Agent 产品:面向软件工程任务,内置代码库读取、文件编辑、命令执行、PR/CI/CD 等能力。
  • Harness Engineering:不是单个框架,而是围绕 Agent 构建上下文、工具、验证、权限和反馈回路的工程方法论。

核心结论是:模型能力正在趋同,真正拉开差距的是 Agent 周围的运行环境。Claude Code、Codex、OpenClaw 这类工具证明了“可执行环境 + 项目知识 + 审批与回滚 + 持续验证”比单次提示词更重要;LangGraph、Microsoft Agent Framework、Harness Agents 则说明生产环境更关心状态持久化、权限、审计和可恢复执行。

分析口径

本文把“AI 框架”按工程边界拆开,而不是按热度排序。原因是不同项目解决的问题不同:

类型 代表 核心问题
SDK / 库 OpenAI Agents SDK、Microsoft Agent Framework 如何在应用内构建可控 Agent
编排运行时 LangGraph、CrewAI Flows 如何表达长流程、多节点、状态和恢复
本地 Agent OS OpenClaw、AgentOS 如何让 Agent 操作个人环境和跨应用数据
编码代理产品 Claude Code、Codex、OpenHands 如何让 Agent 读写代码、运行命令、交付 PR
工程方法论 Harness Engineering 如何让 Agent 可靠、可审计、可迭代

因此,Claude Code 不应直接和 LangGraph 比“谁更强”;前者是带有完整执行面的产品,后者是构建 Agent 系统的编排底座。

生态趋势

从 Prompt Engineering 到 Harness Engineering

Mitchell Hashimoto 在 2026 年 2 月的文章中把这一类实践称为 Harness Engineering:当 Agent 犯错时,不只是修改提示词,而是改造它所处的环境,让同类错误不再发生。这个环境包括 AGENTS.md / CLAUDE.md、脚本、测试、截图工具、权限规则、验证器和回滚机制。

OpenAI 随后在 Codex 实验报告中给出了更激进的例子:团队用 Codex 构建一个约百万行代码的内部产品,并明确指出工程师的工作从“手写代码”转向“设计环境、表达意图、构建反馈回路”。这说明 Agent 系统的瓶颈正在从“模型能不能写代码”转向“系统能不能定义正确的完成标准”。

Agent 开始需要“操作系统化”

OpenClaw 和 AgentOS 代表另一条路线:不是把 Agent 嵌入单个 App,而是给 Agent 一个本地控制面。它们关心的问题包括:

  • 如何统一消息入口、文件、浏览器、系统工具和外部服务。
  • 如何维护长期记忆和跨应用实体关系。
  • 如何把不同工具能力以 MCP、Skill、Capability 等形式暴露给 Agent。
  • 如何在本地优先的前提下处理权限、密钥、沙箱和审计。

这类项目的风险也更高,因为 Agent 不再只是“回答问题”,而是继承了用户机器和账号的真实权限。

生产系统重视确定性和可恢复性

LangGraph、Microsoft Agent Framework、Harness Agents 的共同点是把 Agent 放进更传统的软件工程控制面:

  • 每一步有状态。
  • 关键动作可审批。
  • 执行过程可追踪。
  • 失败后可恢复或重放。
  • 权限和密钥不直接暴露给模型。

这类能力在 Demo 中不显眼,但在生产环境里比“多 Agent 对话”本身更重要。

代表框架与项目分析

OpenClaw

OpenClaw 是一个自托管的 AI Agent Gateway。官方文档把它描述为连接 Discord、Slack、Telegram、WhatsApp、Signal、iMessage、Teams 等多种消息渠道与 AI coding agents 的本地 Gateway。它的 GitHub README 也强调“运行在你自己的设备上”,以 Gateway 作为会话、渠道、工具和事件的控制面。

它的核心价值在于:

  1. 入口统一:用户可以从常用聊天工具发起任务,而不是打开单独的 Agent UI。
  2. 本地优先:会话、配置、工具执行尽量留在用户自己的机器或服务器上。
  3. 多 Agent 路由:不同 sender、channel、workspace 可以路由到隔离的 Agent 会话。
  4. 技能和工具生态:通过 Skills、工具和插件扩展 Agent 能力。

主要风险也很明确。OpenClaw 连接真实聊天入口和本地工具,如果默认权限过宽,外部消息、群聊内容、插件或 Skill 都可能成为提示注入和越权执行入口。它更适合有运维和安全意识的个人开发者、研究者、小团队,而不是直接无防护地放进企业内网。

AgentOS

AgentOS 把自己定位为“local operating system for human-AI collaboration”。它不是简单的聊天工具,而是试图为 Agent 提供一个本地知识图谱、能力代理和工具面。

从架构文档看,AgentOS 的核心组件包括:

  • Rust engine:负责运行图、执行 skills、解析认证、通过 MCP 暴露给 Claude Code、Cursor 等客户端。
  • SQLite memex graph:以 ~/.agentos/data/agentos.db 存储节点、边和值,作为个人知识图谱。
  • Python skills:连接外部服务或提供纯 Agent 工具,通过 @provides(...) 声明能力。
  • Capability broker:应用只请求能力,Skill 只声明能力,双方不直接互相依赖。
  • MCP interface:让支持 MCP 的 Agent 客户端把 AgentOS 当作工具面使用。

AgentOS 的设计亮点是“实体图谱 + 能力代理”。它适合构建长期个人工作记忆,例如跨消息、任务、日历、文档的统一查询。短板是生态仍处于早期,价值依赖大量高质量 Skill 和 Shape 建模,否则容易停留在架构愿景层面。

Claude Code

Claude Code 是 Anthropic 的 agentic coding tool,运行在 terminal、IDE、desktop app 和 web 等多个界面。它能读取代码库、编辑文件、运行命令,并与开发工具集成。

Claude Code 的优势在于产品化程度高:

  • CLAUDE.md 和 rules 能把项目约定写入 Agent 上下文。
  • MCP 能连接 Google Drive、Jira、Slack 或自定义工具。
  • Skills 可以封装团队可复用流程。
  • Hooks 能在工具调用前后执行命令、HTTP、MCP tool、prompt 或 verifier agent。
  • Subagents 和 agent teams 支持隔离上下文或多实例协作。
  • CLI 可以进入 CI/CD、脚本和管道。

Claude Code 的本质不是通用 Agent SDK,而是“软件工程场景的完整 harness”。它适合真实代码库中的增量开发、测试修复、重构、PR 生成和代码审查。它的限制是供应商绑定较强,运行质量高度依赖项目说明、测试体系、权限配置和人工 review。

Harness Agents

Harness Worker Agents 是企业 DevOps 平台中的 Agent 形态。它们不是独立聊天机器人,而是运行在 Harness pipeline 内的 AI-powered automation units。

其关键特点是:

  • Agent 是 pipeline step,可嵌入 CI、CD、IaCM、STO、SCS 或 Custom stage。
  • 每个 Worker Agent 由 Instructions、Model Connector、MCP Server、inputs、environment variables 组成。
  • 继承 Harness 的 secrets、RBAC、pipeline context、trigger 和审计能力。
  • Marketplace 提供代码审查、Autofix、Manifest 修复、IaC 安全检查等模板。
  • 输出变量可传给后续 pipeline step,用于审批、条件判断和通知。

这类 Agent 的工程意义很强:它把 AI 自动化放进已有交付控制面,而不是另起一个无法审计的外部机器人。适合企业 DevOps、平台工程、安全修复、CI 失败分析等场景。

OpenAI Agents SDK

OpenAI Agents SDK 的核心抽象是 AgentRunner,用于管理 turns、tools、guardrails、handoffs 和 sessions。它更像一个应用开发 SDK,而不是一个完整产品。

它适合:

  • 在客服、运营、数据分析等业务应用中嵌入 Agent。
  • 用 handoffs 把任务委托给不同专业 Agent。
  • 用 guardrails 对输入、输出和工具调用做检查。
  • 用 tracing 观察 LLM generation、tool call、handoff、guardrail 和自定义事件。

如果目标是做一个可控的业务 Agent 服务,Agents SDK 比直接裸调模型 API 更合适。但如果任务需要复杂图状态、长时间挂起和恢复,通常还要搭配工作流引擎或持久化层。

LangGraph

LangGraph 是低层级的 Agent 编排框架和运行时,重点不在“自动帮你写 prompt”,而在长期、有状态、多节点的执行。

它的关键能力包括:

  • 图结构表达 Agent / function / tool 的控制流。
  • checkpoint 持久化状态。
  • durable execution 支持中断后恢复。
  • human-in-the-loop 可以在任意节点暂停、审批、修改状态后继续。
  • 与 LangSmith 等观测工具结合,方便调试复杂执行路径。

LangGraph 适合构建严肃生产 Agent:例如审批流、研究流、客服升级流、数据处理流、需要恢复的长任务。代价是抽象偏底层,工程团队需要自己设计状态、节点、边和错误处理。

CrewAI

CrewAI 主打 collaborative agents、crews 和 flows。Crews 适合角色分工式任务,Flows 则用于更确定的事件驱动工作流。

它的优势是上手快,抽象贴近“团队协作”:

  • Agent 有角色、目标、工具、记忆、知识和结构化输出。
  • Crew 负责多个 Agent 协作完成任务。
  • Flow 提供更可控的步骤、状态、持久化和恢复。
  • Enterprise 版本提供部署、触发器、RBAC、监控等平台能力。

CrewAI 适合原型、自动化任务和中等复杂度的多 Agent 应用。若系统需要强一致状态、复杂审批、严格权限和细粒度重放,LangGraph 或 Microsoft Agent Framework 的确定性控制会更合适。

Microsoft Agent Framework

Microsoft Agent Framework 是 Microsoft 将 AutoGen 的多 Agent 抽象和 Semantic Kernel 的企业能力合并后的下一代框架,支持 Python 和 .NET。

它的定位偏企业应用开发:

  • Agents 负责 LLM 输入处理、工具调用、MCP server 和响应生成。
  • Workflows 提供图式工作流、类型安全路由、checkpoint 和 human-in-the-loop。
  • 支持 Foundry、Anthropic、Azure OpenAI、OpenAI、Ollama 等 provider。
  • 提供 session state、context provider、middleware、telemetry、MCP clients。

如果团队在 Azure、.NET、Microsoft Foundry 或 Copilot 生态内,Microsoft Agent Framework 是非常自然的选择。它的优势不是最轻量,而是企业集成、类型系统、可观测性和长期维护路径。

OpenHands

OpenHands 是开源的软件开发 Agent 平台,前身是 OpenDevin。它可以让 Agent 像开发者一样写代码、操作命令行、浏览网页、调用 API,并提供 CLI、本地 GUI、云服务和 Software Agent SDK。

OpenHands 的价值在于开放和可定制:

  • 适合研究软件工程 Agent 的执行环境、沙箱、轨迹和评测。
  • 适合希望自托管 coding agent 的团队。
  • 相比 Claude Code / Codex 这类闭源产品,更容易做底层改造和安全审计。

它的问题是生产体验通常不如商业产品顺滑,团队需要自行承担模型选择、沙箱、凭证、成本、质量和部署维护。

横向对比

项目 类型 最强能力 主要短板 适合场景
OpenClaw 本地 Gateway / Personal Agent 多消息渠道、本地优先、多 Agent 路由 权限与提示注入风险高,生态仍在快速变化 个人助理、跨聊天工具自动化、本地 Agent 实验
AgentOS 本地 Agent OS SQLite memex graph、Capability broker、MCP 工具面 价值依赖 Skill/Shape 生态成熟度 个人知识图谱、长期记忆、跨应用上下文
Claude Code 编码代理产品 代码库操作、命令执行、Hooks、Skills、Subagents 供应商绑定,需强测试和 review 日常开发、重构、测试修复、PR 自动化
Harness Agents DevOps Agent 平台 Pipeline-native、RBAC、Secrets、审计、触发器 依赖 Harness 平台 企业 CI/CD、DevOps、安全修复、IaC 审查
OpenAI Agents SDK Agent SDK Handoffs、Guardrails、Tracing、业务嵌入 长流程状态需额外设计 客服、运营、业务 Agent、工具调用应用
LangGraph 编排运行时 图编排、持久化、恢复、HITL 抽象偏底层,上手成本较高 生产级长任务、多步骤审批、复杂状态机
CrewAI 多 Agent 框架 Crews + Flows,上手快 强控制和审计能力需额外补充 原型、多角色协作、自动化流程
Microsoft Agent Framework 企业 Agent 框架 .NET/Python、workflow、type safety、telemetry 生态偏 Microsoft,框架较重 Azure / .NET 企业 Agent 应用
OpenHands 开源 coding agent 平台 开放、可自托管、软件开发 Agent SDK 产品体验和运维成本较高 Coding agent 研究、自托管开发代理

技术选型建议

个人开发者

如果目标是提高日常编码效率,优先选 Claude Code / Codex / OpenHands 这类 coding agent,而不是先从 LangGraph 搭底层框架。真正能提升效率的是:

  1. 写好 AGENTS.md / CLAUDE.md
  2. 保证项目有可运行测试、lint、format 和截图验证工具。
  3. 把常见错误沉淀成脚本、hook、rule 或 skill。
  4. 限制 Agent 权限,避免直接放开危险命令。

企业 DevOps / 平台工程

如果团队已有 Harness,Harness Agents 的 pipeline-native 模式最值得关注。它避免了“外部 AI bot 持有一堆 token 后到处执行”的治理问题,把 Agent 放进已有 RBAC、Secrets、审计和审批流里。

如果团队在 Azure / .NET 生态,Microsoft Agent Framework 更适合做可维护的企业 Agent 应用。

复杂业务 Agent

需要明确状态机、审批、重试和恢复时,优先考虑 LangGraphMicrosoft Agent Framework Workflows。不要用一串 prompt 和回调硬拼长期任务,否则后期很难排查失败位置。

个人知识管理 / 本地 AI OS

如果关注“Agent 能否理解我的所有工作上下文”,可以关注 AgentOS。它的 memex graph 思路比传统 RAG 更系统:数据不是一堆文档 chunk,而是人、任务、消息、事件、文档之间的关系。

如果关注“从任何聊天入口调度个人 Agent”,可以关注 OpenClaw。但必须先处理安全边界:白名单、沙箱、权限分级、日志、远程暴露策略和插件供应链。

风险与安全问题

AI Agent 框架的主要风险不是“回答错了”,而是“带着真实权限错误地行动”。需要重点关注:

  1. 提示注入:邮件、网页、聊天消息、Issue、PR 评论都可能诱导 Agent 泄露数据或执行危险动作。
  2. 权限继承:本地 Agent 往往继承用户账号、shell、浏览器、云服务 token 的权限。
  3. 工具越权:工具描述不清、MCP server 权限过大、Skill 未隔离,会扩大攻击面。
  4. 状态污染:长期记忆、项目规则、Skill 文档被污染后,会影响后续所有会话。
  5. 供应链风险:社区 Skill、插件、MCP server、自动安装脚本都可能成为入口。
  6. 不可审计执行:没有 trace、日志、checkpoint、审批记录时,出错后无法定位责任链。

最低限度的工程基线应包括:

  • Agent 只拿完成任务所需的最小权限。
  • 高风险工具默认需要人工审批。
  • 所有外部输入进入 Agent 前标记为 untrusted。
  • 工具调用、文件修改、网络访问、密钥读取必须有日志。
  • 关键工作流必须有测试、回滚和人工 review。
  • 不把密钥、cookie、生产数据库写权限直接暴露给通用 Agent。

结论

AI Agent 框架的竞争重点正在从“谁能调用更多工具”转向“谁能给 Agent 一个更可靠的工作环境”。从这个角度看:

  • Claude Code / Codex 代表成熟 coding harness。
  • OpenClaw / AgentOS 代表本地 Agent OS 和个人工作入口。
  • LangGraph / Microsoft Agent Framework 代表生产级状态编排。
  • Harness Agents 代表企业 DevOps 控制面里的 Agent。
  • OpenAI Agents SDK / CrewAI 代表较容易落地的应用开发框架。
  • Harness Engineering 则是贯穿所有路线的底层方法论。

未来真正有价值的 Agent 系统不会只是“更聪明的模型”,而是由模型、工具、状态、权限、评测、审计和人类判断共同组成的工程系统。对开发者来说,最重要的能力也会从写一次性 prompt,转向设计能让 Agent 持续正确工作的环境。

参考资料


AI Agent 框架调研与分析报告
http://ruak.github.io/2026/05/24/AI-Agent-框架调研与分析报告/
作者
HUANGDAN
发布于
2026年5月24日
许可协议