AI 团队组建与管理指南

技术再强,团队搭错了也白搭

一个创始人跟我说:"我花了 3 个月找到一个年薪 200 万的 ML 专家,结果他来了之后天天写论文跑实验,产品上线日期一推再推。不是他不够强,是我搭错了团队。"

AI 产品团队和传统互联网团队有本质区别。传统团队的核心矛盾是"产品和研发对需求的理解不一致"。AI 团队的核心矛盾是"模型能力的不确定性和产品交付的确定性之间的冲突"。

模型效果好不好,在训练完之前谁也不知道。但老板要的是确定的上线日期和确定的效果指标。这个矛盾,不是靠加人能解决的,需要靠合理的团队结构和协作机制来缓解。

一、AI 团队的核心角色

1.1 角色全景

┌─────────────────────────────────────────────────┐
│                  AI 产品团队                      │
├───────────┬───────────┬───────────┬─────────────┤
│  产品侧   │  工程侧    │  数据侧   │  设计侧     │
├───────────┼───────────┼───────────┼─────────────┤
│ AI PM     │ ML Eng    │ Data Eng  │ AI Designer │
│ Prompt Eng│ Backend   │ Data Ana  │ UX Writer   │
│           │ Frontend  │ Annotator │             │
└───────────┴───────────┴───────────┴─────────────┘

1.2 角色定义与核心职责

AI 产品经理(AI PM)

和传统 PM 的区别:

维度 传统 PM AI PM
需求定义 功能边界清晰 需要定义"模型能做到什么程度"
排期 相对确定 模型效果不确定导致排期弹性大
验收标准 功能完成即可 需要评估指标体系(准确率/延迟/成本)
必备技能 用户研究、需求分析 + 模型能力边界判断、评估体系设计

核心职责:

  • 定义 AI 产品的能力边界和失败态
  • 设计评估指标体系(模型/产品/业务三层)
  • 管理用户对 AI 能力的预期
  • 协调模型迭代和产品迭代的节奏

ML 工程师(ML Engineer)

注意区分"ML 研究员"和"ML 工程师":

ML 研究员:追求 SOTA,发论文,实验性强
  -> 适合研究院、大厂 AI Lab

ML 工程师:把模型做成可靠的产品功能
  -> 适合产品团队,这是你应该招的

核心职责:

  • 模型选型、训练、评估、部署
  • Prompt 工程(如果用 LLM)
  • 推理性能优化(延迟、吞吐、成本)
  • 建立模型评估管线

数据工程师(Data Engineer)

AI 产品的数据工程师比传统数据工程师多两项核心职责:

  • 训练数据管线(采集 -> 清洗 -> 标注 -> 版本管理)
  • 线上数据回流(用户反馈 -> 标注 -> 回流训练集)

Prompt 工程师

2024 年争议最大的角色,到 2026 年逐渐清晰:

适合独立设岗的情况:
  - 产品重度依赖 LLM(对话/生成/推理)
  - Prompt 策略复杂(多步推理、多模型编排)
  - 需要持续优化和 A/B 测试 Prompt

不需要独立设岗的情况:
  - AI 功能只是产品的辅助功能
  - 使用微调模型而非 Prompt 驱动
  -> 让 AI PM 或 ML 工程师兼任

AI 设计师

和传统设计师的关键区别:需要设计"不确定性"和"失败态"。

核心增量技能:

  • 设计 AI 置信度的可视化表达
  • 设计加载等待状态(AI 推理往往比较慢)
  • 设计错误恢复流程(AI 回答错了怎么办)
  • 设计人机协作交互(何时 AI 主导、何时人主导)

二、按阶段搭建团队

2.1 MVP 阶段(3-5 人)

目标:验证产品概念,跑通核心链路。

团队配置:
  1x AI PM(兼 Prompt 工程师)
  1x 全栈工程师(前后端 + 基础设施)
  1x ML 工程师(模型选型 + 集成)
  1x 设计师(兼 UX Writer)
  0.5x 数据标注(可外包或兼职)

总人力:3.5-5 人
月成本:8-15 万(国内二线城市)

关键原则:
  - 每个人必须身兼多职
  - AI PM 必须懂技术(至少能判断模型能力边界)
  - ML 工程师要能写生产代码(不是只跑 Jupyter Notebook)
  - 用 API 而非自建模型(省时省力)

MVP 阶段最常见的错误

错误 1:招了一个纯研究型 ML 专家

  • 他想的是"怎么把准确率从 92% 提到 95%"
  • 你需要的是"怎么在两周内上线一个能用的版本"

错误 2:前端和后端分两个人

  • MVP 阶段需要全栈,因为接口每天都在变
  • 前后端分离会导致沟通成本吃掉开发时间

错误 3:没有数据标注角色

  • 以为用现成 API 就不需要数据
  • 实际上评估集的建立从 Day 1 就应该开始

2.2 增长阶段(10-20 人)

目标:产品 PMF 已验证,开始规模化。

团队配置:
  产品组(3-4人):
    1x AI PM Lead
    1x AI PM(偏数据/增长)
    1x Prompt 工程师
    1x AI 设计师

  工程组(5-8人):
    1x ML 工程师 Lead
    2x ML 工程师
    2x 后端工程师
    1x 前端工程师
    1x 基础设施/DevOps

  数据组(2-4人):
    1x 数据工程师
    1x 数据分析师
    1-2x 数据标注(可部分外包)

总人力:10-16 人

增长阶段的组织挑战

挑战 1:模型团队和产品团队的节奏不同步

产品团队:两周一个迭代,功能必须上线
模型团队:训练一次要一周,效果不确定

解法:双轨迭代
  - 产品迭代:两周一个 Sprint,确定性交付
  - 模型迭代:独立的实验周期,效果达标才合入产品
  - 约定:模型升级走"灰度发布",不阻塞产品迭代

挑战 2:数据标注成为瓶颈

随着用户增长,需要标注的数据量指数级增加
但标注团队规模线性增长

解法:
  - 主动学习(Active Learning):只标注模型最不确定的样本
  - 自动标注 + 人工审核:大模型自动标注,人工抽检修正
  - 众包标注:把简单标注任务众包出去

2.3 规模阶段(20+ 人)

目标:多产品线 / 平台化。

组织结构建议:

AI 平台组(横向):
  - 模型服务平台(统一的推理/训练/评估基础设施)
  - 数据平台(统一的数据管线/标注平台/数据市场)
  - 评估平台(统一的评估框架/A/B 测试/监控告警)

产品线(纵向):
  - 产品线 A:PM + 工程师 + ML 应用工程师
  - 产品线 B:PM + 工程师 + ML 应用工程师
  - ...

ML 研究组(前瞻):
  - 探索下一代技术路线
  - 为产品线提供技术预研

规模阶段的关键决策:平台化还是项目制?

平台化(推荐):
  优势:复用基础设施,降低边际成本
  劣势:平台团队可能脱离业务需求
  适合:多产品线共享 AI 能力的公司

项目制:
  优势:贴近业务,响应快
  劣势:重复造轮子,人才流动困难
  适合:产品线差异极大、业务独立性强的公司

三、招聘评估框架

3.1 AI PM 评估维度

维度 权重 评估方式 核心看点
AI 能力判断 30% 案例面试 能否判断"什么能做什么不能做"
产品设计 25% 作品集 有没有处理不确定性的经验
数据思维 20% 指标设计题 能否设计三层指标体系
沟通协调 15% 情景模拟 能否在模型团队和业务之间翻译
技术深度 10% 技术面试 不需要写代码但需要理解原理

面试必问题

  • "你的 AI 产品模型输出了错误结果,用户投诉了,你怎么处理?"
  • "模型准确率从 90% 提到 95% 需要 3 个月,但业务要求下个月上线。你怎么决策?"
  • "如何判断一个 AI 需求是'可以做'还是'暂时不行'?"

3.2 ML 工程师评估维度

维度 权重 评估方式 核心看点
工程能力 35% 代码面试 能否写生产级代码(不是 Notebook)
ML 基础 25% 技术面试 模型选型和调优的实际经验
系统设计 20% 系统设计题 推理系统的延迟/吞吐/成本优化
问题解决 10% 案例分析 线上模型效果下降怎么排查
沟通能力 10% 面试观察 能否把技术问题解释给非技术人员

3.3 红旗信号(不要招的人)

AI PM 红旗:
  x 只谈技术不谈用户
  x 无法解释"AI 不能做什么"
  x 从来没有亲手设计过评估指标

ML 工程师红旗:
  x 只会跑开源模型,没有调过生产系统
  x 追求 SOTA 但不关心延迟和成本
  x 代码只能在 Notebook 里跑
  x 不会写测试

Prompt 工程师红旗:
  x 只会写 Prompt 模板,不理解背后原理
  x 没有系统化的评估方法
  x 不关注成本(Prompt 越长越贵)

四、协作模式与沟通机制

4.1 核心协作流程

需求阶段:
  AI PM 定义需求 -> ML 评估可行性 -> 对齐预期

开发阶段:
  ML 训练/集成    ←→ 工程开发功能
       ↓                    ↓
  模型评估通过    ←→ 功能开发完成
       ↓                    ↓
           联调 + 集成测试
                ↓
           灰度发布
                ↓
           全量上线

4.2 关键会议机制

会议 频率 参与者 核心议程 时长
模型评审 周会 ML + PM 模型效果变化、实验结论 30 min
Sprint Planning 双周 全团队 下个 Sprint 的目标和任务 1 hr
数据质量审查 月会 数据 + ML 数据质量、标注进度、数据缺口 45 min
线上复盘 按需 全团队 线上问题根因分析、改进措施 30 min

4.3 AI 团队与非 AI 团队的协作

常见冲突:
  销售团队:"客户要求准确率 99%"
  ML 团队:"不可能,95% 是极限"

  运营团队:"能不能让 AI 处理所有投诉?"
  AI PM:"投诉需要共情,AI 做不好"

  管理层:"竞品说他们 AI 准确率 99%"
  ML 团队:"他们在吹牛 / 测试集不一样"

解决框架:
  1. 建立"AI 能力说明书"(白皮书,对内公开)
  2. 定期给非 AI 团队做"AI 扫盲"培训
  3. 用"Demo + 数据"代替"概念解释"
  4. AI PM 负责"翻译"——把技术语言变成业务语言

五、常见组织反模式

反模式 1:研究员驱动产品

症状:ML 团队自己决定做什么模型、用什么技术
后果:做出来的模型很强但没人用(不解决业务问题)
解法:产品驱动——PM 定义问题,ML 提供方案,PM 验收效果

反模式 2:PM 不懂 AI

症状:PM 写的 PRD 里没有模型约束、没有失败态、没有评估指标
后果:开发完才发现"做不到"或"不好用"
解法:AI PM 必须经过 AI 基础培训(不用写代码,但要理解原理)

反模式 3:数据团队和模型团队分属不同汇报线

症状:数据工程师归基础设施部门,ML 工程师归产品部门
后果:数据需求沟通成本极高,数据质量问题无人负责
解法:数据和模型放在一个团队里,用同一套 OKR

反模式 4:过早追求自建模型

症状:MVP 阶段就开始训练自己的基座模型
后果:6 个月过去了,模型还没训好,竞品已经上线了
解法:MVP 用 API -> 增长期用微调 -> 规模期才考虑自建

反模式 5:全员 AI 狂热

症状:每个功能都要加 AI,不管有没有必要
后果:开发资源分散,没有一个 AI 功能做到极致
解法:聚焦 1-2 个 AI 核心场景做到极致,其余用传统方案

六、团队成长路径

6.1 个人成长路径

AI PM 路径:
  初级 PM -> AI PM -> AI PM Lead -> AI 产品总监 -> CPO/VP Product

ML 工程师路径:
  ML 工程师 -> 高级 ML -> ML Lead -> AI 架构师 -> CTO/VP Engineering
                                  -> ML 研究(转研究方向)

Prompt 工程师路径:
  Prompt Eng -> 高级 Prompt -> AI 应用架构师
                            -> AI PM(转产品方向)

6.2 团队培养机制

每周:
  - 论文/产品分享会(30 分钟,轮流主讲)
  - 代码审查(ML 代码必须有 PM review 设计意图)

每月:
  - 竞品拆解(选一个 AI 产品,全团队拆解)
  - 技术债务清理日(一天专门处理技术债)

每季:
  - 团队 OKR 复盘
  - 技能矩阵更新(谁会什么、缺什么、怎么补)
  - 外部分享/参会预算

七、团队搭建检查清单

搭建 AI 团队之前,过一遍这个清单:

角色完整性:
[ ] 有人能定义"AI 做什么/不做什么"?(AI PM)
[ ] 有人能把模型部署到生产环境?(ML 工程师)
[ ] 有人能建设和维护数据管线?(数据工程师)
[ ] 有人能设计"AI 出错了怎么办"的体验?(AI 设计师)

协作机制:
[ ] 产品需求和模型能力的对齐机制是否建立?
[ ] 模型迭代和产品迭代的节奏是否协调?
[ ] 非 AI 团队是否理解 AI 的能力边界?

避坑:
[ ] 是否避免了"研究员驱动产品"?
[ ] MVP 阶段是否使用 API 而非自建模型?
[ ] 是否聚焦在 1-2 个核心 AI 场景?

最后一条建议:AI 团队的搭建没有标准答案,但有标准错误。 避开上面列出的反模式,你就已经赢了一半。另一半,靠找到对的人,给他们对的问题,然后信任他们。


Maurice | maurice_wen@proton.me