一人 AI Lab 工程落地方案:Claude Code Max + Codex + Colab Pro+

0. 结论先写在前面

  • “一人 Lab”在工程产出层面已经成立:代码与实验流水线的边际成本被压到很低。
  • “一人 Lab”在知识增量层面并不自动成立:瓶颈从“实现能力”迁移到“问题选择、证据强度、可复现性、解释与写作的诚实度”。
  • 论文通货膨胀大概率发生:更多可运行的实验、更多可写的段落;但同行评审会把门槛推向更硬的证据与更严格的复现。

1. 目标与约束

1.1 目标

  • 在单人负责方向选择与最终判断的前提下,把“读文献 → 产出假设 → 写代码 → 跑实验 → 出结论 → 写稿”工程化成可重复的流水线。
  • 用两个不同的代码代理互相制衡,把“能跑”提升为“能被相信”。

1.2 关键约束(现实世界的摩擦)

  • LLM 输出不是证据;运行日志也不是证据;只有“可复现的、对照充分的、统计上站得住的结果”才是证据。
  • 远程算力具有不确定性:Colab 付费服务强调更高的算力可用性与 Pro+ 的后台执行能力,但具体 GPU 分配受平台资源影响。citeturn0search7
  • Claude Max 计划把 Claude 与 Claude Code 放在同一订阅与额度体系内,需要把“提示预算”当作工程资源管理。citeturn0search12turn0search1
  • Codex 既有本地代理形态(Codex CLI),也有云端并行工作形态;这意味着“本地可控 + 云端并行”的混合编排成为默认。citeturn0search14turn0search6

2. 总体架构(把 AI 当成团队,不当成魔法)

               ┌────────────────────────────┐
               │        你(PI/裁判)         │
               │ 选题/假设/标准/最终结论       │
               └────────────┬───────────────┘
                            │
                 ┌──────────┴──────────┐
                 │   控制平面 Control    │
                 │ labctl + repo + CI    │
                 │ 任务编排/权限/审计      │
                 └───────┬────────┬──────┘
                         │        │
        ┌────────────────┘        └────────────────┐
        │                                          │
┌───────▼────────┐                         ┌───────▼────────┐
│  代码代理层      │                         │  研究代理层      │
│ Claude Code      │                         │ 文献/假设/评审/写作 │
│ Codex (CLI/Cloud) │                         │ 结果审计/复现官     │
└───────┬────────┘                         └───────┬────────┘
        │                                          │
        └───────────────┬──────────────────────────┘
                        │
            ┌───────────▼───────────┐
            │   执行平面 Execution    │
            │ Colab Pro+ / 本地 / 云    │
            │ 数据/模型/日志/制品存储    │
            └─────────────────────────┘

3. 角色拆分(把“多名助手”具体化)

3.1 AI Research Assistant(研究侧)

  • 文献侦察兵:构建 related work 图谱;提炼可复现的 baseline;输出“可检验假设列表”。
  • 假设反对派:专职找反例、边界条件、潜在泄漏、评估缺陷;目标是让你更难自我感动。
  • 实验设计师:把假设翻译成“对照组/消融/指标/样本量/统计检验”。
  • 结果审计员:只看日志与表格,不看你写的结论;把“结果”与“叙事”解耦。
  • 复现官:从零环境复跑;复现失败即视为未完成。

3.2 CLI IT 工程师(工程侧)

  • 仓库管家:目录结构、依赖锁定、脚手架、模板。
  • CI/测试工程师:单测、集成测、静态检查、可复现构建。
  • 数据管道工:数据版本、校验、缓存、切分一致性。
  • 训练/推理操作员:Colab 运行脚本化、断点续训、指标上报、制品归档。
  • 安全与秘钥管理员:最小权限、密钥不落盘、日志脱敏。

4. 双代理策略(Claude Code × Codex 的分工与制衡)

4.1 Claude Code(“在仓库里干活”的工程师)

  • 适合做:多文件重构、接口迁移、测试补齐、脚手架生成、复杂变更的分解与执行。
  • Claude Code 的 Plan Mode 会先产出可编辑的 plan.md 再执行,等价于内置的“先立章程再动手”。citeturn0search8
  • Max 计划与 Claude Code 共用额度与使用限制,需要把“并行开工”设计成可中断的短任务。citeturn0search1turn0search12

4.2 Codex(“并行外包”的工程师)

  • Codex 既有 Codex CLI(本地代理)也有云端并行工作形态;核心是一个可编排的 agent loop(模型 + 工具 + 执行环境)。citeturn0search6turn0search14
  • Codex 可在任务执行时启用互联网访问;这提升检索能力,也扩大数据泄漏与依赖不确定性的攻击面。citeturn0search2
  • Codex 的产品与能力迭代以 changelog 方式公开,适合把“工具升级”当成依赖升级纳入发布流程。citeturn0search16

4.3 制衡规则(把“幻觉”变成工程问题)

  • 双写同一模块:关键实验代码由两个代理独立实现;结果不一致即视为红灯。
  • 交叉代码审计:A 写、B 评;评审重点只看“可证伪点”:数据流、指标定义、随机性控制、泄漏风险。
  • 最小化自由度:实验入口统一为配置文件驱动(YAML/JSON);代理不得手写散落参数。

5. Repo 规范(把研究变成可追溯的软件)

5.1 目录结构

repo/
  README.md
  lab/                  # 控制平面:任务模板、规范、checklist
  src/                  # 可复用代码
  experiments/          # 实验入口(纯脚本/配置驱动)
  configs/              # 统一配置(数据/模型/训练/评估)
  data/                 # 只放元数据与索引,不放大文件
  artifacts/            # 产物索引(模型、图表、表格)
  reports/              # 结果摘要(自动生成)
  paper/                # 论文/技术报告(LaTeX/Markdown)
  tests/                # 测试
  tools/                # labctl、日志解析、复现工具

5.2 统一实验清单(manifest)

每个实验目录必须包含:

  • spec.md:假设、对照、指标、停止条件、预期失败模式。
  • run.py:唯一入口;禁止 notebook 作为唯一入口。
  • config.yaml:所有超参、数据切分、随机种子、版本号。
  • results.jsonl:逐次运行记录(含 git commit、环境 hash、GPU 类型、时间戳)。
  • analysis.ipynb(可选):只做分析与可视化,不做训练。

6. Colab Pro+ 执行平面(把 notebook 变成可控的远程执行器)

6.1 运行方式

  • Colab 只承担“执行”,不承担“事实来源”:所有代码与配置从 Git 拉取,所有结果回写到制品存储。
  • Pro+ 的后台执行能力用于长跑训练;断点续训与中途落盘必须是默认策略。citeturn0search7

6.2 A100 资源假设与降级

  • A100 在 Colab 的企业计价体系中有明确的按小时价格,这说明平台侧存在 A100 资源池;但 Pro+ 的具体分配不做硬承诺。citeturn0search17turn0search7
  • 降级路径固定:A100 → V100/T4 → CPU(只跑单测与小样本 sanity check)。

7. 质量闸门(把“验证 idea”从口号变成流程)

7.1 四道闸门

  1. Sanity Gate:小数据集、短步数、固定种子,跑通训练与评估,输出指标非 NaN。
  2. Baseline Gate:复现实用 baseline;指标达到文献/公开实现的合理区间。
  3. Ablation Gate:至少 3 个消融点;每个消融点只改一个变量。
  4. Repro Gate:换环境、换时间、换实例复跑;误差落在可解释范围。

7.2 证据强度分级(防止论文通胀的自嗨)

  • E0:只跑通,无对照。
  • E1:有对照但无复现。
  • E2:有对照、有消融、有复现(最小可发表强度)。
  • E3:跨数据集/跨任务泛化 + 误差分析 + 失败案例(高信号)。

8. 日志、制品与可追溯性(把“结果”变成对象)

8.1 统一元数据

每次运行必须记录:

  • git_commitdiff_hash(未提交变更)
  • dataset_versionsplit_hash
  • model_versionconfig_hash
  • seedhardware(GPU 型号/显存)、runtime
  • metrics(含置信区间或方差)

8.2 制品仓(artifact store)

  • 训练产物与图表只通过 artifact store 发布;论文里引用的每张图必须能回溯到一次具体 run。

9. 安全与权限(把“能联网的代理”关进笼子)

  • 默认不把 secrets 暴露给任何代理。
  • Codex 若启用联网能力,只允许访问白名单域名;所有下载依赖写入 lockfile 与 hash 校验。citeturn0search2turn0search6
  • 所有代理输出进入审计日志;日志脱敏规则与数据权限同级。

10. 论文流水线(把写作当成编译产物)

  • 论文草稿由研究代理生成“结构”,由结果审计员写“反证段落”,由你写“主论证与贡献声明”。
  • 图表与表格自动从 results.jsonl 编译生成;禁止手工改图改表。
  • 贡献声明必须绑定证据分级(E0–E3),不允许用叙事替代证据。

11. 对“单人 Lab 时代”的判断(把兴奋从幻觉里拎出来)

11.1 发生了什么变化

  • 过去的瓶颈:写代码、调环境、跑实验的体力劳动。
  • 现在的瓶颈:定义问题、设计对照、排除泄漏、解释结果、识别伪进步(spurious gain)。

这等价于:你买的是一支高速笔和一群不知疲倦的实习生,不是自动产生真理的机器。

11.2 “一人 Lab”成立的边界条件

  • 成立:软件与算法为主;公开数据;可重复的训练与评估;算力中等;工程复杂度高但物理世界依赖低。
  • 不成立:稀缺数据/隐私数据;昂贵算力(大规模训练);湿实验;需要长期观测或硬件迭代的研究。

11.3 论文通货膨胀的机制

  • 产能提升把“可写的东西”变多,但不把“可相信的东西”自动变多。
  • 会议/期刊会把筛选维度从“有没有方法”推向“证据链是否闭合、复现是否可得、失败是否被诚实呈现”。

一人 Lab 时代在工程意义上已经到来;在科学意义上,只是把刀从肌肉递到了大脑。