智能体架构演进:Claude Code、OpenAI Codex 与 Manus 的技术深度解构

智能体架构演进:Claude Code、OpenAI Codex 与 Manus 的技术深度解构

在人工智能领域,从“对话式模型”向“自主智能体(Autonomous Agents)”的跨越,标志着软件工程与通用数字化任务处理进入了全新的范式阶段。这一转变的核心在于 AI 不再仅仅是一个被动提供信息的预测引擎,而是一个能够理解复杂意图、制定多步计划、操作环境工具并对结果进行验证的闭环系统 。当前的技术图景由三种代表性的架构进路所主导:以 Anthropic Claude Code 为代表的终端原生“智能体马甲(Agentic Harness)”、以 OpenAI Codex 为代表的大规模代码预训练与云端委派模型,以及以 Manus 为代表的通用型多 Agent 协作系统 。

Claude Code:面向开发者的终端原生 Agentic Harness

Claude Code 是 Anthropic 为软件工程师量身定制的命令行智能体,其核心架构被定义为一种环绕 Claude 模型的“智能体马甲”,旨在通过紧密的工具集成和环境感知,将大语言模型的推理能力转化为实际的工程产出 。其设计哲学强调“开发者在环(Developer-in-the-loop)”,通过终端原生的交互方式,在真实的本地 shell 环境中执行任务 。

智能体循环(Agentic Loop)的底层机制

Claude Code 的运行逻辑建立在一个被称为“智能体循环”的持续迭代过程之上。这一循环由三个交织的阶段组成:收集上下文、采取行动和验证结果 。当用户输入一个高层目标(如“修复项目中所有的类型错误”)时,Claude Code 首先进入上下文收集阶段。此时,智能体会利用内置的搜索工具(如 grepfindglob)扫描整个代码库,读取项目特有的指令文件(如 CLAUDE.md),并分析当前的 git 状态,包括分支历史和未提交的更改 。

在行动阶段,Claude Code 展现了极强的环境操纵能力。它不仅能够编辑文件,还能运行 shell 命令、管理包管理器、执行构建工具以及调用系统实用程序 。这种“主动模式”与传统的代码补全工具(如 GitHub Copilot 的早期版本)有着本质区别:它不只是在编辑器中提供建议,而是直接在文件系统中执行操作。验证阶段则是闭环的关键,智能体会运行测试套件、检查构建日志,并根据反馈调整其下一步行动 。

模型上下文协议(MCP)与工具编排

Claude Code 的扩展性由模型上下文协议(Model Context Protocol, MCP)支撑。MCP 是一个标准化框架,允许智能体安全地连接到外部服务、数据库和 API 。在架构上,MCP 充当了“管道”角色,将复杂的工具定义和数据源暴露给 AI 模型。

协议组件 技术实现原理 核心功能
传输层 基于 stdio 的 JSON-RPC 2.0 协议 确保进程间通信的确定性与隔离性
客户端角色 Claude Code 消费其他 MCP 服务器(如 GitHub, Postgres) 获取外部数据和操作权限
服务器角色 Claude Code 暴露文件编辑与 Bash 执行工具给其他客户端 允许其他 IDE(如 Cursor)委派任务给 Claude Code
安全边界 进程隔离,无 MCP 透传机制 确保只有启动服务器的进程可以连接,防止越权访问

Claude Code 这种既是客户端又是服务器的“双重特性”,使其能够编排复杂的跨平台工作流。例如,通过 Docker MCP Toolkit,智能体可以同时调用文件系统 MCP 扫描代码、调用 GitHub MCP 获取 git blame 信息、调用 Atlassian MCP 在 Jira 中创建任务,从而在几分钟内完成原本需要数小时的手动审计工作 。

上下文管理与长短期记忆系统

处理大规模代码重构时,上下文窗口的有效利用是核心挑战。Claude Code 采用了“上下文压缩(Context Compaction)”技术,当对话历史接近配置阈值时,系统会自动对旧的上下文进行智能摘要并替换 。在 Opus 4.6 模型中,这种机制配合高达 100 万个 token 的上下文窗口,使智能体能够处理跨越数小时的长时间、高强度任务而不会产生“上下文漂移” 。

在记忆系统方面,Claude Code 构建了一个分层结构:

  1. 持久性项目上下文:存储在项目根目录的 CLAUDE.md 中,包含编码规范、测试命令和架构概述,在每个会话开始时自动加载 。
  2. 自动记忆(Auto Memory):系统自动学习用户的偏好和项目模式,并将前 200 行记录在 MEMORY.md 中,实现跨会话的知识积累 。
  3. 会话级状态:保存在本地会话文件中,支持通过 /fork-session 命令创建独立的任务分支,确保并行工作不会相互干扰 。

安全隔离:OS 级沙箱与权限模型

为了在本地执行不受信任的代码或命令,Claude Code 引入了基于操作系统特性的沙箱隔离机制 。该机制在文件系统和网络层建立了坚实的边界:

  • 文件系统隔离:确保智能体只能访问或修改用户批准的特定目录,防止注入攻击修改系统敏感文件(如 SSH 密钥) 。
  • 网络隔离:限制智能体只能连接到受信任的域名,防止数据泄露或恶意软件下载 。

这种沙箱化架构显著降低了权限提示的频率,通过预定义的边界,智能体可以在内部自主运行,同时确保安全性,其内部测试显示这种方法可减少 84% 的手动审批操作 。

OpenAI Codex:从代码预训练到云端自主委派

OpenAI Codex 是对生成式预训练变换器(GPT)架构在编程领域的深度定制。它不仅是 GitHub Copilot 的底层引擎,更代表了另一种 Agentic 路径:通过大规模高质量代码数据训练,实现从自然语言到功能正确代码的高度映射 。

训练架构与数据工程深度解析

Codex 的技术基石是对 GPT-3 进行针对性微调。其训练数据集由 2020 年 5 月从 GitHub 收集的 5400 万个公开存储库组成,包含 179 GB 的原始 Python 文件 。为了保证模型能够理解真实世界的工程逻辑,OpenAI 实施了极为严苛的数据清洗流程:

过滤维度 技术指标 目的
文件大小 严格限制在 1 MB 以下 排除大型二进制文件或自动生成的日志
行长度 平均行长 < 100,最大行长 < 1000 确保代码的可读性和语法结构的典型性
字符分布 剔除非字母数字比例过高的文件 排除混淆代码或纯数据文件
语言分布 虽然以 Python 为核心,但覆盖多种主流语言 建立跨语言的逻辑理解能力

Codex 的分词器沿用了 GPT-3 的文本分词器,尽管研究人员认为这在处理代码分布时并非最优选择,但其优势在于能够最大程度保留 GPT-3 强大的自然语言表示能力,从而更好地理解 docstring 中的复杂指令 。

评估框架:功能正确性与 HumanEval

Codex 论文中最重要的技术贡献之一是确立了基于“功能正确性”而非单纯语法匹配的评估范式。由于代码实现具有高度的多样性,传统的 BLEU 指标无法衡量程序是否能正确运行 。为此,OpenAI 提出了 pass@k 指标,用于衡量生成 $n$ 个样本时,至少有一个样本通过单元测试的概率 :

$$pass@k = E_{problems} \left[ 1 - \frac{\binom{n-c}{k}}{\binom{n}{k}} \right]$$

其中 $n$ 为生成的总样本数,$c$ 为通过测试的样本数。为了进行公正评估,研究团队推出了 HumanEval 数据集,包含 164 个手写的编程问题,涵盖算法、数学和语言理解能力,且每个问题平均配有 7.7 个单元测试 。这种评估方式迫使 Codex 不仅要生成“看起来像代码”的文本,更要理解程序逻辑的正确性。

演进路径:从 Codex 到 GitHub Copilot Agent

随着 2026 年 GPT-5.3-Codex 的发布,OpenAI 的 Agent 架构已从单纯的生成引擎演变为复杂的“自主委派”系统 。与 Claude Code 的交互式风格不同,Codex Agent 更倾向于“结果导向”的异步执行。用户在云端环境中定义任务(如“重构此模块以支持 OAuth2 登录”),Codex 随后在隔离的云端沙箱中自主规划、编写代码、运行测试并最终生成拉取请求(Pull Request)供用户审查 。

这种架构的核心在于 AGENTS.md 标准,这是一个位于仓库根目录的指令文件,作为 Agent 的“README”。它指导 Agent 如何导航代码库、应遵循的工程实践以及如何处理边缘情况 。相比之下,Codex 在大规模代码重构和全自动化任务中表现出更高的吞吐量,尤其适合那些需要并发执行多个复杂任务的企业级场景 。

Manus:通用型多 Agent 协作系统

Manus 是一款由中国初创公司 Butterfly Effect (Monica.im) 开发的全自主通用 AI Agent,其定位是“将想法转化为行动”的数字化协作者 。Manus 的独特性在于它不局限于编程任务,而是旨在处理包括财务分析、市场研究、旅行规划等在内的复杂、多步骤通用任务 。

多 Agent 协作架构与任务分解逻辑

Manus 的核心架构并非单一的大模型,而是一个精密编排的多 Agent 框架 。这种设计通过将认知过程模块化,有效地解决了单智能体在处理长链条任务时容易产生的“目标漂移”问题 。Manus 系统内部通常包含以下核心角色:

  1. 规划智能体(Planner Agent):担任“战略家”,将用户的高层目标分解为可管理的子任务,制定详细的步骤路线图 。
  2. 执行智能体(Execution Agent):作为“行动者”,通过调用浏览器、终端、代码解释器等工具,逐一完成规划中的任务 。
  3. 验证智能体(Verification Agent):负责“质量控制”,在每个关键节点检查执行结果的准确性,并在发现偏差时触发重新规划 。

这种架构支撑了 Manus 在 GAIA 基准测试(通用 AI 智能体评估)中的卓越表现。GAIA 测试要求智能体在真实世界的模糊场景中进行推理并使用工具,Manus 在所有三个难度等级上均超越了 OpenAI 的 Deep Research 。

浏览器原生代理与“Manus’s Computer”透明度

Manus 技术的另一个关键支点是其深度集成的浏览器自动化能力。通过 BrowserUse 等底层库,Manus 获得了在互联网上进行观察和操作的“眼”和“手” 。它能解析网页 DOM 结构,模拟点击、输入、滚动等人类行为,并能绕过 CAPTCHA 或处理复杂的动态加载内容 。

为了解决 AI 智能体的“黑盒”问题,Manus 创新性地引入了“Manus’s Computer”实时侧边栏 。该界面允许用户实时观察智能体的每一个操作步骤——从打开标签页、填写表单到运行 Python 代码分析数据。这种透明度不仅建立了用户信任,还提供了一个交互窗口:当 Manus 遇到需要人工干预的复杂认证时,用户可以直接在侧边栏中操作,随后让智能体继续自主运行 。

云端异步执行与环境隔离

与运行在本地的 Claude Code 不同,Manus 采用了完全云端的异步执行架构 。当用户发起任务后,即使关闭浏览器或离线,Manus 依然在云端虚拟机中持续运行。每个任务会话都在一个独立的 Linux 沙箱中执行,该沙箱拥有完整的 Ubuntu 文件系统访问权限,并能动态安装所需的软件环境 。

这种“云原生”架构的优势在于其零配置的便捷性和极低的用户端资源占用,特别适合处理耗时较长的研究任务 。此外,Manus 还支持会话的回放功能,用户可以回溯智能体完成任务的完整时间线,这对于调试复杂任务和验证数据来源至关重要 。

核心技术对比:推理模型、实现原理与自愈逻辑

深入分析主流 Agent 的底层技术,可以发现它们在推理范式、长短期记忆管理以及错误恢复能力上有着共通的演进趋势。

推理范式:ReAct、CoT 与 Tree-of-Thought

目前主流 Agent(如 Claude Code 和 Manus)主要采用 ReAct(Reasoning and Acting)框架 。ReAct 的核心实现是将模型的内部思维过程与外部工具动作交织在一起:

  • Thought(思维):模型生成一段自然语言,解释当前的理解和下一步打算做什么。
  • Action(行动):模型根据思维生成一个具体的工具调用指令(如 Bash(ls))。
  • Observation(观察):系统捕捉工具的返回结果,并将其反馈给模型以生成下一个 Thought。

对于极具挑战性的逻辑任务,智能体正在向“思维树(Tree-of-Thought, ToT)”演进 。ToT 允许模型生成多个候选思维分支,并对这些分支进行评估,若发现某个路径无法通向目标,模型可以进行回溯并尝试其他分支 。Manus 的多 Agent 协作本质上就是一种层级化的 ToT 实现,通过 Planner 对不同子路径的协调,实现了更具战略性的决策 。

自愈(Self-Healing)与错误恢复机制

“自愈”能力是衡量智能体自主性的关键指标。一个成熟的 Agent 必须能够在遇到执行错误(如代码运行报错、网络连接超时)时,自主进行诊断和修复 。

自愈环节 Claude Code 的实现 LogicStar/Manus 的实现
错误捕获 通过终端 stderr 实时捕捉 traceback 通过监控工具和静态分析识别异常状态
快照恢复 修改前自动快照,支持 Esc 二次撤销 利用 Git 分支和文件隔离确保环境可逆
补丁生成 将 traceback 重新喂回模型生成新方案 基于静态分析知识图谱生成确定性修复建议
验证闭环 自动重新运行测试套件直到通过 结合回归验证确保修复不引入副作用

这种“尝试-愈合-重试(Try-Heal-Retry)”的架构,标志着 AI 从简单的代码生成器进化为能够管理复杂系统稳定性的维护者 。

性能指标:GAIA 与 Terminal-Bench 的多维度对比

在评估智能体的实战能力时,单纯的文本准确率已不再适用。业界转而关注在真实环境下的任务完成率。

评估维度 评估标准 主导模型/Agent
通用任务能力 GAIA Benchmark (跨工具推理) Manus (Level 3 达 57.7%)
终端编程效率 Terminal-Bench 2.0 (命令行交互) Claude Opus 4.6
法律/专业知识 BigLaw Bench (Harvey) Claude Opus 4.6 (90.2%)
工程重构能力 SWE-bench (真实 GitHub 补丁) Codex GPT-5.3 (提升显著)

数据显示,Manus 在需要跨模态推理和复杂工具链整合的通用任务中具有优势,而 Claude Code 在深度代码逻辑、终端操作和长上下文保持方面则更胜一筹 。

总结:未来趋势与产业影响

通过对 Claude Code、OpenAI Codex 和 Manus 的技术解构,我们可以清晰地看到智能体架构的三个确定性方向。

首先是“上下文的实时化与全量化”。传统的 RAG 索引正在被以 Claude Code 为代表的“智能体搜索(Agentic Search)”所补充。智能体不再依赖陈旧的数据库副本,而是直接通过底层系统工具实时感知环境,这使得 AI 能够处理每秒都在变化的项目状态 。

其次是“协作范式的多 Agent 化”。Manus 的成功证明了,通过将复杂意图分解为不同角色的协作,可以极大地提升任务的成功率和系统的可解释性 。未来的智能体将不再是孤岛,而是由多个专门化模型(如 Test Runner, Debugger, Architect)组成的战术小组 。

最后是“安全与自主性的平衡”。从 Claude Code 的本地沙箱到 Manus 的云端隔离,如何在减少人类干预(减少 84% 提示)的同时,确保 AI 不会越过安全红线,仍将是架构设计的重中之重 。智能体正在从“简单的辅助工具”转型为“具有数字主权的数字化劳动力”,这一过程将深刻重塑软件开发、数据科学及各类知识密集型行业的生产力格局 。