世界级 B 端代码智能体:云端沙盒架构图(Claude Agent SDK + Skills)
原创
灵阙教研团队
S 精选 提升 |
约 7 分钟阅读
更新于 2026-01-06 AI 导读
世界级 B 端代码智能体:云端沙盒架构图(Claude Agent SDK + Skills) 目标:把“智能体推理”与“代码执行”彻底解耦,在多租户企业场景下实现 最小权限、强隔离沙箱、可审计合规、可观测可回放、可扩展与成本可控。 Control Plane:鉴权 / 策略 / 编排 / 配额 Agent Plane:Claude Agent SDK + Skills + 工具编排...
世界级 B 端代码智能体:云端沙盒架构图(Claude Agent SDK + Skills)
目标:把“智能体推理”与“代码执行”彻底解耦,在多租户企业场景下实现 最小权限、强隔离沙箱、可审计合规、可观测可回放、可扩展与成本可控。
Control Plane:鉴权 / 策略 / 编排 / 配额
Agent Plane:Claude Agent SDK + Skills + 工具编排
Execution Plane:Kata/Firecracker/gVisor 沙箱池
Data Plane:日志/工件/评测/知识库
Security:短期凭证 + egress 白名单 + 审计链
1. 架构总览图(世界级 B 端智能体)
这张图把系统拆成四个平面:控制面(企业治理中枢)、智能体面(Claude Agent SDK + Skills)、执行面(强隔离沙箱)、数据面(工件/日志/评测/知识)。
企业级关键点:策略与审计必须在沙箱外强制执行;沙箱只负责“可控执行”。
企业级关键点:策略与审计必须在沙箱外强制执行;沙箱只负责“可控执行”。
切换:控制面
切换:智能体面
切换:执行面
切换:数据面
重置:全部显示
控制面(Control Plane)
智能体面(Agent Plane)
执行面(Execution Plane)
数据面(Data Plane)
入口与企业集成(Entry & Enterprise Integrations)
前端 UI / IDE 插件
(Prompt / 上下文 / 结果展示)
企业系统入口
(SSO / ITSM / ChatOps)
代码与工单来源
(GitHub/GitLab/Jira/ServiceNow)
知识与数据连接器
(Docs / Wiki / DB / API)
控制面 Control Plane(企业治理中枢:鉴权 / 策略 / 编排 / 配额 / 审计)
API Gateway
• AuthN/Z(JWT/OAuth/SSO)
• Rate Limit / WAF
• Request Signing
Policy Engine
• RBAC / ABAC / 组织策略
• allowed_tools / 网络白名单
• 数据分级与脱敏规则
Job Orchestrator
• 排队 / 并发 / 超时 / 重试
• 人审/审批 Gate(可选)
• 任务状态机 + 回放
Identity & Secret Broker
• 短期凭证(TTL)
• 最小权限 Token(Git/Artifacts)
• KMS/Vault & Rotation
智能体面 Agent Plane(Claude Agent SDK + Skills + 工具编排 + 模型网关)
Model Gateway
• 多模型路由 / 回退
• 成本控制 / 预算
• Prompt 版本化
Agent Service
• Claude Agent SDK(loop)
• Context Builder(repo/issue)
• Tool Adapter(转发到 Runner)
Skill / Prompt Registry
• .claude/skills/**/SKILL.md
• 模板 / 规范 / 审核
• 变更与回滚
Tool Catalog
• Read/Write/Bash/Skill
• 连接器(API/DB/Docs)
• 风险分级与审批
执行面 Execution Plane(强隔离沙箱池:可控执行、不可信代码)
Sandbox Runner API
• /exec(命令:超时/资源限制)
• /read /write(路径白名单+大小上限)
• /diff /artifacts(交付物输出)
• 统一审计:cmd / stdout / exit_code
• 网络:默认断网,必要时 egress 白名单
实现建议:Kata/Firecracker > gVisor > Rootless Docker
Sandbox Pool
• Workspace 挂载(只写工作区)
• 依赖缓存(受控代理)
• 构建/测试/静态分析
• 禁特权 / drop caps / seccomp
• 配额:CPU/内存/磁盘/进程数
可选:为高风险工具加“人审/双控”
数据面 Data Plane(工件 / 日志 / 评测 / 知识)
Artifact Store
• diff/patch • 测试报告 • 构建产物
• 可追溯版本化(job_id / commit)
Observability
• Trace(tool calls)• Logs • Metrics
• 审计链(不可抵赖)
Eval / Governance
离线回放 • 回归集 • 成本/成功率 KPI
HTTPS
Job Spec
Agent Session
Tool Calls
Exec / FS
Sandbox
Artifacts
信任边界:控制面/智能体面 与 执行面隔离(所有不可信代码只在执行面运行)
图中最关键的“企业级强约束点”:Policy Engine(工具/网络/数据策略) +
Secret Broker(短期最小权限凭证) +
Runner(强隔离执行与审计)。
2. 设计原则(B 端必须具备)
最小权限与分层授权
每个任务按组织策略计算 allowed_tools;高风险工具(写入/网络/提交 PR)可加审批 Gate。
强隔离执行(不可信代码只进沙箱)
Agent 不直接执行命令;所有 Bash/FS 操作经 Runner,统一限额/超时/路径白名单/网络策略。
可审计、可回放、可追溯
记录每次工具调用与文件变更;交付物(diff/日志/报告)与 job_id、commit 强绑定。
模型网关与成本治理
多模型路由、降级与预算;将成本指标纳入 SLO(单任务 token/分钟/失败回滚)。
“只有前端 + 沙箱”在企业里通常不够:缺少鉴权、策略、审计、配额、队列、工件存储与合规治理。
正确做法是让后端变薄(控制面),而不是消失。
3. 信任边界与安全控制点(企业级核心)
3.1 必须“外置强制”的控制点
- 策略:allowed_tools、网络 egress、数据分级、路径规则 → Policy Engine
- 凭证:短期 token(TTL)+ 最小权限(Git/Artifacts/Connectors)→ Secret Broker
- 执行:资源限额、超时、只写工作区、禁特权 → Runner + Sandbox
- 审计:不可抵赖记录(tool calls、diff、命令)→ Observability/Audit
3.2 风险分级建议(示例)
Tier 0(安全):Read / 搜索 / 静态分析
Tier 1(受控):Write(仅工作区 + 小文件)/ 单元测试
Tier 2(高风险):网络访问 / 依赖安装 / 生成提交
Tier 3(极高风险):生产变更 / 触达敏感系统(必须审批)
B 端“世界级”通常来自:把 合规、风险与成本 作为一等公民(first-class citizen),而不是事后补丁。
4. 运行时形态(K8s / 多租户 / 隔离选型)
推荐隔离梯度
多租户/不可信代码:Kata / Firecracker(更强隔离) →
过渡:gVisor →
MVP:Rootless Docker + 强约束
Runner 节点池策略
将 Runner 与 Sandboxes 放在独立 NodePool;默认断网;必要网络经 egress proxy + 域名白名单 + 流量审计。
作业生命周期
Orchestrator 创建 job → 分配 sandbox → Agent session 执行工具调用 → 产出 diff/报告 → 归档与回放。
缓存与可复现
依赖缓存只通过受控代理;镜像与工具链版本固化;每次 job 记录环境指纹(image digest + lockfile)。
5. 关键业务流(从输入到交付物)
5.1 标准交付流(最常用)
用户输入(需求/bug/任务) →
API Gateway 鉴权 →
Policy Engine 计算策略(allowed_tools / egress / 配额) →
Orchestrator 排队并分配沙箱 →
Agent Service(Claude Agent SDK + Skills)开始 loop →
Tool Calls(Read/Write/Bash)全部转发 Runner →
Runner 在强隔离沙箱里执行,产出日志/测试报告/diff →
Artifacts/Observability 归档 → 前端展示与下载(或生成 PR)
5.2 “人审/审批 Gate”插入点(B 端常见)
触发条件(示例):
- 需要网络访问(依赖安装 / 外部 API)
- 需要提交到主分支 / 创建 PR
- 触达敏感目录或高风险工具 Tier 2/3
实现方式:
Orchestrator 将 job 状态置为 WAIT_APPROVAL →
审批通过后继续执行 / 否则终止并保留审计记录
6. 可观测、评测与治理(让系统长期“可控”)
观测(Observability)
OpenTelemetry Trace(每次工具调用)+ Logs(stdout/stderr 截断)+ Metrics(成功率/耗时/成本)。
每个 job 具备 trace_id,可定位到具体命令与文件变更。
评测(Eval)
建立离线回放:固定仓库 + 任务集(回归),持续量化:成功率、迭代次数、人工介入、成本上限。
治理(Governance)
Skill/Prompt 版本化与审批;策略变更灰度;高风险工具单独审计;对外连接器全部最小权限化。
可靠性(SRE)
SLO:任务成功率、P95 时延、单任务成本;失败自动收敛(降级模型、缩小上下文、限制工具)。
如果你要把它做成“世界级 B 端”,建议把 策略引擎(Policy)、短期凭证(Secret Broker)、
审计链(Audit Trail)、评测回归(Eval) 作为第一天就内建的基础设施。