世界级 B 端代码智能体：云端沙盒架构图（Claude Agent SDK + Skills）

原创灵阙教研团队

S 精选提升 | 约 7 分钟阅读更新于 2026-01-06

AI 导读

世界级 B 端代码智能体：云端沙盒架构图（Claude Agent SDK + Skills）目标：把“智能体推理”与“代码执行”彻底解耦，在多租户企业场景下实现最小权限、强隔离沙箱、可审计合规、可观测可回放、可扩展与成本可控。 Control Plane：鉴权 / 策略 / 编排 / 配额 Agent Plane：Claude Agent SDK + Skills + 工具编排...

世界级 B 端代码智能体：云端沙盒架构图（Claude Agent SDK + Skills）

目标：把“智能体推理”与“代码执行”彻底解耦，在多租户企业场景下实现 最小权限、强隔离沙箱、可审计合规、可观测可回放、可扩展与成本可控。

Control Plane：鉴权 / 策略 / 编排 / 配额 Agent Plane：Claude Agent SDK + Skills + 工具编排 Execution Plane：Kata/Firecracker/gVisor 沙箱池 Data Plane：日志/工件/评测/知识库 Security：短期凭证 + egress 白名单 + 审计链

1. 架构总览图（世界级 B 端智能体）

这张图把系统拆成四个平面：控制面（企业治理中枢）、智能体面（Claude Agent SDK + Skills）、执行面（强隔离沙箱）、数据面（工件/日志/评测/知识）。
企业级关键点：策略与审计必须在沙箱外强制执行；沙箱只负责“可控执行”。

切换：控制面切换：智能体面切换：执行面切换：数据面重置：全部显示

控制面（Control Plane）智能体面（Agent Plane）执行面（Execution Plane）数据面（Data Plane）

入口与企业集成（Entry & Enterprise Integrations）前端 UI / IDE 插件 (Prompt / 上下文 / 结果展示) 企业系统入口 (SSO / ITSM / ChatOps) 代码与工单来源 (GitHub/GitLab/Jira/ServiceNow) 知识与数据连接器 (Docs / Wiki / DB / API) 控制面 Control Plane（企业治理中枢：鉴权 / 策略 / 编排 / 配额 / 审计） API Gateway • AuthN/Z（JWT/OAuth/SSO） • Rate Limit / WAF • Request Signing Policy Engine • RBAC / ABAC / 组织策略 • allowed_tools / 网络白名单 • 数据分级与脱敏规则 Job Orchestrator • 排队 / 并发 / 超时 / 重试 • 人审/审批 Gate（可选） • 任务状态机 + 回放 Identity & Secret Broker • 短期凭证（TTL） • 最小权限 Token（Git/Artifacts） • KMS/Vault & Rotation 智能体面 Agent Plane（Claude Agent SDK + Skills + 工具编排 + 模型网关） Model Gateway • 多模型路由 / 回退 • 成本控制 / 预算 • Prompt 版本化 Agent Service • Claude Agent SDK（loop） • Context Builder（repo/issue） • Tool Adapter（转发到 Runner） Skill / Prompt Registry • .claude/skills/**/SKILL.md • 模板 / 规范 / 审核 • 变更与回滚 Tool Catalog • Read/Write/Bash/Skill • 连接器（API/DB/Docs） • 风险分级与审批执行面 Execution Plane（强隔离沙箱池：可控执行、不可信代码） Sandbox Runner API • /exec（命令：超时/资源限制） • /read /write（路径白名单+大小上限） • /diff /artifacts（交付物输出） • 统一审计：cmd / stdout / exit_code • 网络：默认断网，必要时 egress 白名单实现建议：Kata/Firecracker > gVisor > Rootless Docker Sandbox Pool • Workspace 挂载（只写工作区） • 依赖缓存（受控代理） • 构建/测试/静态分析 • 禁特权 / drop caps / seccomp • 配额：CPU/内存/磁盘/进程数可选：为高风险工具加“人审/双控” 数据面 Data Plane（工件 / 日志 / 评测 / 知识） Artifact Store • diff/patch • 测试报告 • 构建产物 • 可追溯版本化（job_id / commit） Observability • Trace（tool calls）• Logs • Metrics • 审计链（不可抵赖） Eval / Governance 离线回放 • 回归集 • 成本/成功率 KPI HTTPS Job Spec Agent Session Tool Calls Exec / FS Sandbox Artifacts 信任边界：控制面/智能体面与执行面隔离（所有不可信代码只在执行面运行）

图中最关键的“企业级强约束点”：Policy Engine（工具/网络/数据策略） + Secret Broker（短期最小权限凭证） + Runner（强隔离执行与审计）。

2. 设计原则（B 端必须具备）

最小权限与分层授权

每个任务按组织策略计算 allowed_tools；高风险工具（写入/网络/提交 PR）可加审批 Gate。

强隔离执行（不可信代码只进沙箱）

Agent 不直接执行命令；所有 Bash/FS 操作经 Runner，统一限额/超时/路径白名单/网络策略。

可审计、可回放、可追溯

记录每次工具调用与文件变更；交付物（diff/日志/报告）与 job_id、commit 强绑定。

模型网关与成本治理

多模型路由、降级与预算；将成本指标纳入 SLO（单任务 token/分钟/失败回滚）。

“只有前端 + 沙箱”在企业里通常不够：缺少鉴权、策略、审计、配额、队列、工件存储与合规治理。 正确做法是让后端变薄（控制面），而不是消失。

3. 信任边界与安全控制点（企业级核心）

3.1 必须“外置强制”的控制点

策略：allowed_tools、网络 egress、数据分级、路径规则 → Policy Engine
凭证：短期 token（TTL）+ 最小权限（Git/Artifacts/Connectors）→ Secret Broker
执行：资源限额、超时、只写工作区、禁特权 → Runner + Sandbox
审计：不可抵赖记录（tool calls、diff、命令）→ Observability/Audit

3.2 风险分级建议（示例）

Tier 0（安全）：Read / 搜索 / 静态分析
Tier 1（受控）：Write（仅工作区 + 小文件）/ 单元测试
Tier 2（高风险）：网络访问 / 依赖安装 / 生成提交
Tier 3（极高风险）：生产变更 / 触达敏感系统（必须审批）

B 端“世界级”通常来自：把 合规、风险与成本 作为一等公民（first-class citizen），而不是事后补丁。

4. 运行时形态（K8s / 多租户 / 隔离选型）

推荐隔离梯度

多租户/不可信代码：Kata / Firecracker（更强隔离） → 过渡：gVisor → MVP：Rootless Docker + 强约束

Runner 节点池策略

将 Runner 与 Sandboxes 放在独立 NodePool；默认断网；必要网络经 egress proxy + 域名白名单 + 流量审计。

作业生命周期

Orchestrator 创建 job → 分配 sandbox → Agent session 执行工具调用 → 产出 diff/报告 → 归档与回放。

缓存与可复现

依赖缓存只通过受控代理；镜像与工具链版本固化；每次 job 记录环境指纹（image digest + lockfile）。

5. 关键业务流（从输入到交付物）

5.1 标准交付流（最常用）

用户输入（需求/bug/任务） →
API Gateway 鉴权 →
Policy Engine 计算策略（allowed_tools / egress / 配额） →
Orchestrator 排队并分配沙箱 →
Agent Service（Claude Agent SDK + Skills）开始 loop →
Tool Calls（Read/Write/Bash）全部转发 Runner →
Runner 在强隔离沙箱里执行，产出日志/测试报告/diff →
Artifacts/Observability 归档 → 前端展示与下载（或生成 PR）

5.2 “人审/审批 Gate”插入点（B 端常见）

触发条件（示例）：
- 需要网络访问（依赖安装 / 外部 API）
- 需要提交到主分支 / 创建 PR
- 触达敏感目录或高风险工具 Tier 2/3

实现方式：
Orchestrator 将 job 状态置为 WAIT_APPROVAL →
审批通过后继续执行 / 否则终止并保留审计记录

6. 可观测、评测与治理（让系统长期“可控”）

观测（Observability）

OpenTelemetry Trace（每次工具调用）+ Logs（stdout/stderr 截断）+ Metrics（成功率/耗时/成本）。每个 job 具备 trace_id，可定位到具体命令与文件变更。

评测（Eval）

建立离线回放：固定仓库 + 任务集（回归），持续量化：成功率、迭代次数、人工介入、成本上限。

治理（Governance）

Skill/Prompt 版本化与审批；策略变更灰度；高风险工具单独审计；对外连接器全部最小权限化。

可靠性（SRE）

SLO：任务成功率、P95 时延、单任务成本；失败自动收敛（降级模型、缩小上下文、限制工具）。

如果你要把它做成“世界级 B 端”，建议把 策略引擎（Policy）、短期凭证（Secret Broker）、 审计链（Audit Trail）、评测回归（Eval） 作为第一天就内建的基础设施。