智能体架构演进:Claude Code、OpenAI Codex 与 Manus 的技术深度解构
在人工智能领域,从“对话式模型”向“自主智能体(Autonomous Agents)”的跨越,标志着软件工程与通用数字化任务处理进入了全新的范式阶段。这一转变的核心在于 AI 不再仅仅是一个被动提供信息的预测引擎,而是一个能够理解复杂意图、制定多步计划、操作环境工具并对结果进行验证的闭环系统 。当前的技术图景由三种代表性的架构进路所主导:以 Anthropic Claude Code 为代表的终端原生“智能体马甲(Agentic Harness)”、以 OpenAI Codex 为代表的大规模代码预训练与云端委派模型,以及以 Manus 为代表的通用型多 Agent 协作系统 。
Claude Code:面向开发者的终端原生 Agentic Harness
Claude Code 是 Anthropic 为软件工程师量身定制的命令行智能体,其核心架构被定义为一种环绕 Claude 模型的“智能体马甲”,旨在通过紧密的工具集成和环境感知,将大语言模型的推理能力转化为实际的工程产出 。其设计哲学强调“开发者在环(Developer-in-the-loop)”,通过终端原生的交互方式,在真实的本地 shell 环境中执行任务 。
智能体循环(Agentic Loop)的底层机制
Claude Code 的运行逻辑建立在一个被称为“智能体循环”的持续迭代过程之上。这一循环由三个交织的阶段组成:收集上下文、采取行动和验证结果 。当用户输入一个高层目标(如“修复项目中所有的类型错误”)时,Claude Code 首先进入上下文收集阶段。此时,智能体会利用内置的搜索工具(如 grep、find 和 glob)扫描整个代码库,读取项目特有的指令文件(如 CLAUDE.md),并分析当前的 git 状态,包括分支历史和未提交的更改 。
在行动阶段,Claude Code 展现了极强的环境操纵能力。它不仅能够编辑文件,还能运行 shell 命令、管理包管理器、执行构建工具以及调用系统实用程序 。这种“主动模式”与传统的代码补全工具(如 GitHub Copilot 的早期版本)有着本质区别:它不只是在编辑器中提供建议,而是直接在文件系统中执行操作。验证阶段则是闭环的关键,智能体会运行测试套件、检查构建日志,并根据反馈调整其下一步行动 。
模型上下文协议(MCP)与工具编排
Claude Code 的扩展性由模型上下文协议(Model Context Protocol, MCP)支撑。MCP 是一个标准化框架,允许智能体安全地连接到外部服务、数据库和 API 。在架构上,MCP 充当了“管道”角色,将复杂的工具定义和数据源暴露给 AI 模型。
| 协议组件 | 技术实现原理 | 核心功能 |
|---|---|---|
| 传输层 | 基于 stdio 的 JSON-RPC 2.0 协议 | 确保进程间通信的确定性与隔离性 |
| 客户端角色 | Claude Code 消费其他 MCP 服务器(如 GitHub, Postgres) | 获取外部数据和操作权限 |
| 服务器角色 | Claude Code 暴露文件编辑与 Bash 执行工具给其他客户端 | 允许其他 IDE(如 Cursor)委派任务给 Claude Code |
| 安全边界 | 进程隔离,无 MCP 透传机制 | 确保只有启动服务器的进程可以连接,防止越权访问 |
Claude Code 这种既是客户端又是服务器的“双重特性”,使其能够编排复杂的跨平台工作流。例如,通过 Docker MCP Toolkit,智能体可以同时调用文件系统 MCP 扫描代码、调用 GitHub MCP 获取 git blame 信息、调用 Atlassian MCP 在 Jira 中创建任务,从而在几分钟内完成原本需要数小时的手动审计工作 。
上下文管理与长短期记忆系统
处理大规模代码重构时,上下文窗口的有效利用是核心挑战。Claude Code 采用了“上下文压缩(Context Compaction)”技术,当对话历史接近配置阈值时,系统会自动对旧的上下文进行智能摘要并替换 。在 Opus 4.6 模型中,这种机制配合高达 100 万个 token 的上下文窗口,使智能体能够处理跨越数小时的长时间、高强度任务而不会产生“上下文漂移” 。
在记忆系统方面,Claude Code 构建了一个分层结构:
-
持久性项目上下文:存储在项目根目录的
CLAUDE.md中,包含编码规范、测试命令和架构概述,在每个会话开始时自动加载 。 -
自动记忆(Auto Memory):系统自动学习用户的偏好和项目模式,并将前 200 行记录在
MEMORY.md中,实现跨会话的知识积累 。 -
会话级状态:保存在本地会话文件中,支持通过
/fork-session命令创建独立的任务分支,确保并行工作不会相互干扰 。
安全隔离:OS 级沙箱与权限模型
为了在本地执行不受信任的代码或命令,Claude Code 引入了基于操作系统特性的沙箱隔离机制 。该机制在文件系统和网络层建立了坚实的边界:
- 文件系统隔离:确保智能体只能访问或修改用户批准的特定目录,防止注入攻击修改系统敏感文件(如 SSH 密钥) 。
- 网络隔离:限制智能体只能连接到受信任的域名,防止数据泄露或恶意软件下载 。
这种沙箱化架构显著降低了权限提示的频率,通过预定义的边界,智能体可以在内部自主运行,同时确保安全性,其内部测试显示这种方法可减少 84% 的手动审批操作 。
OpenAI Codex:从代码预训练到云端自主委派
OpenAI Codex 是对生成式预训练变换器(GPT)架构在编程领域的深度定制。它不仅是 GitHub Copilot 的底层引擎,更代表了另一种 Agentic 路径:通过大规模高质量代码数据训练,实现从自然语言到功能正确代码的高度映射 。
训练架构与数据工程深度解析
Codex 的技术基石是对 GPT-3 进行针对性微调。其训练数据集由 2020 年 5 月从 GitHub 收集的 5400 万个公开存储库组成,包含 179 GB 的原始 Python 文件 。为了保证模型能够理解真实世界的工程逻辑,OpenAI 实施了极为严苛的数据清洗流程:
| 过滤维度 | 技术指标 | 目的 |
|---|---|---|
| 文件大小 | 严格限制在 1 MB 以下 | 排除大型二进制文件或自动生成的日志 |
| 行长度 | 平均行长 < 100,最大行长 < 1000 | 确保代码的可读性和语法结构的典型性 |
| 字符分布 | 剔除非字母数字比例过高的文件 | 排除混淆代码或纯数据文件 |
| 语言分布 | 虽然以 Python 为核心,但覆盖多种主流语言 | 建立跨语言的逻辑理解能力 |
Codex 的分词器沿用了 GPT-3 的文本分词器,尽管研究人员认为这在处理代码分布时并非最优选择,但其优势在于能够最大程度保留 GPT-3 强大的自然语言表示能力,从而更好地理解 docstring 中的复杂指令 。
评估框架:功能正确性与 HumanEval
Codex 论文中最重要的技术贡献之一是确立了基于“功能正确性”而非单纯语法匹配的评估范式。由于代码实现具有高度的多样性,传统的 BLEU 指标无法衡量程序是否能正确运行 。为此,OpenAI 提出了 pass@k 指标,用于衡量生成 $n$ 个样本时,至少有一个样本通过单元测试的概率 :
$$pass@k = E_{problems} \left[ 1 - \frac{\binom{n-c}{k}}{\binom{n}{k}} \right]$$
其中 $n$ 为生成的总样本数,$c$ 为通过测试的样本数。为了进行公正评估,研究团队推出了 HumanEval 数据集,包含 164 个手写的编程问题,涵盖算法、数学和语言理解能力,且每个问题平均配有 7.7 个单元测试 。这种评估方式迫使 Codex 不仅要生成“看起来像代码”的文本,更要理解程序逻辑的正确性。
演进路径:从 Codex 到 GitHub Copilot Agent
随着 2026 年 GPT-5.3-Codex 的发布,OpenAI 的 Agent 架构已从单纯的生成引擎演变为复杂的“自主委派”系统 。与 Claude Code 的交互式风格不同,Codex Agent 更倾向于“结果导向”的异步执行。用户在云端环境中定义任务(如“重构此模块以支持 OAuth2 登录”),Codex 随后在隔离的云端沙箱中自主规划、编写代码、运行测试并最终生成拉取请求(Pull Request)供用户审查 。
这种架构的核心在于 AGENTS.md 标准,这是一个位于仓库根目录的指令文件,作为 Agent 的“README”。它指导 Agent 如何导航代码库、应遵循的工程实践以及如何处理边缘情况 。相比之下,Codex 在大规模代码重构和全自动化任务中表现出更高的吞吐量,尤其适合那些需要并发执行多个复杂任务的企业级场景 。
Manus:通用型多 Agent 协作系统
Manus 是一款由中国初创公司 Butterfly Effect (Monica.im) 开发的全自主通用 AI Agent,其定位是“将想法转化为行动”的数字化协作者 。Manus 的独特性在于它不局限于编程任务,而是旨在处理包括财务分析、市场研究、旅行规划等在内的复杂、多步骤通用任务 。
多 Agent 协作架构与任务分解逻辑
Manus 的核心架构并非单一的大模型,而是一个精密编排的多 Agent 框架 。这种设计通过将认知过程模块化,有效地解决了单智能体在处理长链条任务时容易产生的“目标漂移”问题 。Manus 系统内部通常包含以下核心角色:
- 规划智能体(Planner Agent):担任“战略家”,将用户的高层目标分解为可管理的子任务,制定详细的步骤路线图 。
- 执行智能体(Execution Agent):作为“行动者”,通过调用浏览器、终端、代码解释器等工具,逐一完成规划中的任务 。
- 验证智能体(Verification Agent):负责“质量控制”,在每个关键节点检查执行结果的准确性,并在发现偏差时触发重新规划 。
这种架构支撑了 Manus 在 GAIA 基准测试(通用 AI 智能体评估)中的卓越表现。GAIA 测试要求智能体在真实世界的模糊场景中进行推理并使用工具,Manus 在所有三个难度等级上均超越了 OpenAI 的 Deep Research 。
浏览器原生代理与“Manus’s Computer”透明度
Manus 技术的另一个关键支点是其深度集成的浏览器自动化能力。通过 BrowserUse 等底层库,Manus 获得了在互联网上进行观察和操作的“眼”和“手” 。它能解析网页 DOM 结构,模拟点击、输入、滚动等人类行为,并能绕过 CAPTCHA 或处理复杂的动态加载内容 。
为了解决 AI 智能体的“黑盒”问题,Manus 创新性地引入了“Manus’s Computer”实时侧边栏 。该界面允许用户实时观察智能体的每一个操作步骤——从打开标签页、填写表单到运行 Python 代码分析数据。这种透明度不仅建立了用户信任,还提供了一个交互窗口:当 Manus 遇到需要人工干预的复杂认证时,用户可以直接在侧边栏中操作,随后让智能体继续自主运行 。
云端异步执行与环境隔离
与运行在本地的 Claude Code 不同,Manus 采用了完全云端的异步执行架构 。当用户发起任务后,即使关闭浏览器或离线,Manus 依然在云端虚拟机中持续运行。每个任务会话都在一个独立的 Linux 沙箱中执行,该沙箱拥有完整的 Ubuntu 文件系统访问权限,并能动态安装所需的软件环境 。
这种“云原生”架构的优势在于其零配置的便捷性和极低的用户端资源占用,特别适合处理耗时较长的研究任务 。此外,Manus 还支持会话的回放功能,用户可以回溯智能体完成任务的完整时间线,这对于调试复杂任务和验证数据来源至关重要 。
核心技术对比:推理模型、实现原理与自愈逻辑
深入分析主流 Agent 的底层技术,可以发现它们在推理范式、长短期记忆管理以及错误恢复能力上有着共通的演进趋势。
推理范式:ReAct、CoT 与 Tree-of-Thought
目前主流 Agent(如 Claude Code 和 Manus)主要采用 ReAct(Reasoning and Acting)框架 。ReAct 的核心实现是将模型的内部思维过程与外部工具动作交织在一起:
- Thought(思维):模型生成一段自然语言,解释当前的理解和下一步打算做什么。
-
Action(行动):模型根据思维生成一个具体的工具调用指令(如
Bash(ls))。 - Observation(观察):系统捕捉工具的返回结果,并将其反馈给模型以生成下一个 Thought。
对于极具挑战性的逻辑任务,智能体正在向“思维树(Tree-of-Thought, ToT)”演进 。ToT 允许模型生成多个候选思维分支,并对这些分支进行评估,若发现某个路径无法通向目标,模型可以进行回溯并尝试其他分支 。Manus 的多 Agent 协作本质上就是一种层级化的 ToT 实现,通过 Planner 对不同子路径的协调,实现了更具战略性的决策 。
自愈(Self-Healing)与错误恢复机制
“自愈”能力是衡量智能体自主性的关键指标。一个成熟的 Agent 必须能够在遇到执行错误(如代码运行报错、网络连接超时)时,自主进行诊断和修复 。
| 自愈环节 | Claude Code 的实现 | LogicStar/Manus 的实现 |
|---|---|---|
| 错误捕获 | 通过终端 stderr 实时捕捉 traceback | 通过监控工具和静态分析识别异常状态 |
| 快照恢复 | 修改前自动快照,支持 Esc 二次撤销 | 利用 Git 分支和文件隔离确保环境可逆 |
| 补丁生成 | 将 traceback 重新喂回模型生成新方案 | 基于静态分析知识图谱生成确定性修复建议 |
| 验证闭环 | 自动重新运行测试套件直到通过 | 结合回归验证确保修复不引入副作用 |
这种“尝试-愈合-重试(Try-Heal-Retry)”的架构,标志着 AI 从简单的代码生成器进化为能够管理复杂系统稳定性的维护者 。
性能指标:GAIA 与 Terminal-Bench 的多维度对比
在评估智能体的实战能力时,单纯的文本准确率已不再适用。业界转而关注在真实环境下的任务完成率。
| 评估维度 | 评估标准 | 主导模型/Agent |
|---|---|---|
| 通用任务能力 | GAIA Benchmark (跨工具推理) | Manus (Level 3 达 57.7%) |
| 终端编程效率 | Terminal-Bench 2.0 (命令行交互) | Claude Opus 4.6 |
| 法律/专业知识 | BigLaw Bench (Harvey) | Claude Opus 4.6 (90.2%) |
| 工程重构能力 | SWE-bench (真实 GitHub 补丁) | Codex GPT-5.3 (提升显著) |
数据显示,Manus 在需要跨模态推理和复杂工具链整合的通用任务中具有优势,而 Claude Code 在深度代码逻辑、终端操作和长上下文保持方面则更胜一筹 。
总结:未来趋势与产业影响
通过对 Claude Code、OpenAI Codex 和 Manus 的技术解构,我们可以清晰地看到智能体架构的三个确定性方向。
首先是“上下文的实时化与全量化”。传统的 RAG 索引正在被以 Claude Code 为代表的“智能体搜索(Agentic Search)”所补充。智能体不再依赖陈旧的数据库副本,而是直接通过底层系统工具实时感知环境,这使得 AI 能够处理每秒都在变化的项目状态 。
其次是“协作范式的多 Agent 化”。Manus 的成功证明了,通过将复杂意图分解为不同角色的协作,可以极大地提升任务的成功率和系统的可解释性 。未来的智能体将不再是孤岛,而是由多个专门化模型(如 Test Runner, Debugger, Architect)组成的战术小组 。
最后是“安全与自主性的平衡”。从 Claude Code 的本地沙箱到 Manus 的云端隔离,如何在减少人类干预(减少 84% 提示)的同时,确保 AI 不会越过安全红线,仍将是架构设计的重中之重 。智能体正在从“简单的辅助工具”转型为“具有数字主权的数字化劳动力”,这一过程将深刻重塑软件开发、数据科学及各类知识密集型行业的生产力格局 。