AI 产品 PRD 撰写指南与模版

写好一份 AI 产品 PRD,80% 的坑就提前填上了

你有没有经历过这样的场景?

PRD 写得很漂亮:用户输入问题,AI 返回答案,界面清爽简洁。开发做完了,测试也过了,上线第一天——用户问了句方言,AI 回了段英文;问了个敏感话题,AI 侃侃而谈;高峰期响应 15 秒,用户以为卡死了疯狂刷新。

这些问题,不是开发的锅,是 PRD 的锅。传统 PRD 假设系统是确定性的——输入 A 必然得到输出 B。但 AI 产品天生是概率性的——输入 A 可能得到 B、C、D,甚至得到一堆胡话。

这篇文章会告诉你:AI 产品的 PRD 和传统 PRD 到底差在哪,以及一套经过实战验证的模版。

一、AI 产品 PRD 的四大特殊性

1.1 传统 PRD vs AI 产品 PRD

维度 传统产品 PRD AI 产品 PRD
输出确定性 确定:按钮点了就跳转 概率性:同一输入可能不同输出
错误处理 明确的错误码和提示 需要处理"模型幻觉""不确定性"
数据依赖 功能不依赖历史数据 模型质量强依赖训练/评估数据
迭代方式 加功能、改 UI 换模型、调 Prompt、加数据
成本结构 固定(服务器) 可变(每次推理都花钱)
用户预期 精确匹配 需要管理"AI 不是万能的"预期

1.2 AI PRD 必须额外回答的四个问题

Q1: 模型错了怎么办?(Failure State Design)
Q2: 数据从哪来、够不够?(Data Strategy)
Q3: 一次推理花多少钱?(Cost per Inference)
Q4: 怎么衡量"好不好用"?(Evaluation beyond NPS)

这四个问题,传统 PRD 一个都不需要回答。但在 AI 产品里,漏掉任何一个都可能导致项目失败。

二、AI 产品 PRD 完整模版

以下是经过多个项目验证的模版结构。每个章节后面的标注说明是否为 AI 产品特有。

模版结构总览

1. 问题与背景              [通用]
2. AI 能力映射              [AI 特有]
3. 数据需求与策略           [AI 特有]
4. 模型选型与理由           [AI 特有]
5. 用户体验设计             [通用,但含失败态]
6. 评估指标体系             [AI 特有]
7. 伦理与合规考量           [AI 特有]
8. 迭代计划与模型升级路径    [AI 特有]
9. 非目标与边界             [通用]
10. 依赖与风险              [通用]

2.1 问题与背景

## 1. 问题与背景

### 1.1 目标用户
- 用户画像:[谁在用?什么场景?什么频率?]
- 当前痛点:[没有 AI 时,用户怎么做?花多少时间/钱?]
- 期望收益:[用了 AI 后,节省多少时间/钱?体验提升多少?]

### 1.2 业务背景
- 市场规模:[TAM/SAM/SOM]
- 竞品现状:[谁在做?做到什么程度?]
- 战略定位:[为什么是现在做?为什么是我们做?]

### 1.3 成功标准(30/60/90 天)
- 30 天:[MVP 验证标准]
- 60 天:[增长标准]
- 90 天:[商业化标准]

2.2 AI 能力映射(AI 特有)

这是最容易被忽略、也最容易出问题的章节。

## 2. AI 能力映射

### 2.1 核心 AI 能力
| 能力 | 技术路径 | 成熟度 | 可靠性预期 |
|------|----------|--------|------------|
| [例:意图识别] | [NLU/LLM] | [成熟/实验] | [95%/80%/60%] |

### 2.2 能力边界(必须写清楚)
- 能做什么:[明确列出]
- 不能做什么:[明确列出,更重要]
- 灰色地带:[能做但不稳定的场景,需要人工兜底]

### 2.3 人机协作策略
- 全自动场景:[AI 置信度 > X% 时自动处理]
- 半自动场景:[AI 给建议,人工确认]
- 人工兜底场景:[AI 无法处理时,转人工的流程]

2.3 数据需求与策略(AI 特有)

## 3. 数据需求与策略

### 3.1 训练/评估数据
| 数据类型 | 数据量 | 来源 | 标注需求 | 获取成本 |
|----------|--------|------|----------|----------|
| [例:客服对话] | [10万条] | [历史记录] | [意图标注] | [内部,低] |

### 3.2 数据管线
- 数据采集 -> 清洗 -> 标注 -> 训练 -> 评估
- 数据更新频率:[实时/日更/周更]
- 数据质量监控:[异常检测机制]

### 3.3 冷启动策略
- [无历史数据时的方案:合成数据/迁移学习/规则兜底]

2.4 模型选型与理由(AI 特有)

## 4. 模型选型

### 4.1 候选模型对比
| 模型 | 准确率 | 延迟 | 成本/次 | 部署方式 | 选型结论 |
|------|--------|------|---------|----------|----------|
| GPT-4o | 92% | 2s | $0.03 | API | 备选 |
| Claude Sonnet | 90% | 1.5s | $0.015 | API | 主选 |
| Gemini Flash | 85% | 0.5s | $0.002 | API | 高并发兜底 |

### 4.2 选型理由
- 主模型:[选择理由,权衡说明]
- Fallback 链:[主模型 -> 备选1 -> 备选2]
- 升级路径:[什么条件下换模型]

2.5 用户体验设计(含失败态)

## 5. 用户体验设计

### 5.1 核心交互流程
[标准的用户流程图]

### 5.2 失败态设计(AI 特有,必须详细)

| 失败场景 | 触发条件 | 用户看到什么 | 系统动作 |
|----------|----------|-------------|----------|
| 模型超时 | 响应 > 5s | 骨架屏 + "正在思考" | 自动重试1次 |
| 低置信度 | 置信度 < 60% | "我不太确定,建议您..." | 记录用于改进 |
| 模型幻觉 | 事实检查失败 | 不展示 + 转人工 | 告警 + 标注 |
| 敏感内容 | 安全过滤命中 | "无法回答此类问题" | 记录 + 审查 |
| 服务降级 | 主模型不可用 | 功能可用但质量下降 | 切 Fallback |

### 5.3 不确定性表达
- 高置信度(>90%):直接展示结果
- 中置信度(60-90%):展示结果 + "仅供参考"标签
- 低置信度(<60%):不展示 + 引导人工处理

三、实战案例:智能客服产品 PRD 节选

以下是一个真实项目的 PRD 关键节选(脱敏后),展示上述模版如何落地。

3.1 问题与背景

目标用户:电商平台客服团队(日均咨询量 5000+)

当前痛点

  • 70% 的咨询是重复问题(物流查询、退换货政策)
  • 人工客服平均响应时间 3 分钟
  • 夜间无人值守,错过 15% 的咨询

成功标准

  • 30 天:AI 自动处理率 > 40%,用户满意度 > 85%
  • 60 天:AI 自动处理率 > 60%,人工客服工作量下降 30%
  • 90 天:7x24 覆盖,夜间咨询响应率 > 95%

3.2 能力边界(最关键的部分)

能做(全自动):
  - 物流查询(调用物流 API + 模板话术)
  - FAQ 问答(基于知识库检索)
  - 订单状态查询(调用订单 API)

能做但需人工确认(半自动):
  - 退换货审批(AI 预判 + 人工审核)
  - 优惠券发放(AI 推荐方案 + 人工确认)

不能做(直接转人工):
  - 投诉处理(情绪安抚需要人)
  - 异常订单(金额 > 5000 或 VIP 客户)
  - 敏感话题(法律纠纷、人身安全)

3.3 关键指标

模型层指标:
  - 意图识别准确率 > 92%
  - 知识库检索召回率 > 85%
  - 响应延迟 < 2s(P95)

产品层指标:
  - AI 自动处理率(目标 60%)
  - 转人工率(目标 < 30%)
  - 首次解决率(目标 > 75%)

业务层指标:
  - 人工客服成本下降比例
  - 用户满意度(CSAT > 85%)
  - 夜间覆盖率

四、PRD 撰写检查清单

写完 PRD 后,用这个清单过一遍:

基础要素:
[ ] 目标用户和痛点是否清晰?
[ ] 成功标准是否可量化?
[ ] 非目标是否明确?

AI 特有要素:
[ ] 能力边界是否写清楚了"不能做什么"?
[ ] 失败态设计是否覆盖了至少 5 种场景?
[ ] 数据策略是否包含冷启动方案?
[ ] 模型选型是否有 Fallback 链?
[ ] 成本估算是否包含推理成本?
[ ] 评估指标是否分了模型/产品/业务三层?
[ ] 伦理合规是否考虑了数据隐私和内容安全?

可执行性:
[ ] 开发读完能不能直接干活?
[ ] 测试读完能不能写测试用例?
[ ] 运营读完能不能准备上线方案?

五、避坑指南

坑 1:只写"正常路径"

症状:PRD 里只有"用户提问 -> AI 回答 -> 用户满意"。 后果:上线后 30% 的交互是异常路径,没人知道怎么处理。 解法:失败态设计的篇幅至少占 PRD 的 20%。

坑 2:把模型能力当确定性承诺

症状:PRD 写"AI 准确率 99%"。 后果:1% 的错误在千万级流量下就是 10 万次错误。 解法:写区间而不是单点值,写"目标 92-95%"而不是"99%"。

坑 3:忽略推理成本

症状:PRD 没算过"一次对话要花多少钱"。 后果:用户越多越亏钱,老板质问"为什么 AI 比人工还贵"。 解法:PRD 里必须有成本估算表:日均请求量 x 单次成本 = 日均推理费用。

坑 4:评估指标只有准确率

症状:PRD 里的成功标准只有"模型准确率 > 90%"。 后果:模型很准但用户不买账(太慢、太冷冰冰、不像人话)。 解法:三层指标体系——模型层 + 产品层 + 业务层,缺一不可。

坑 5:PRD 写完就不更新

症状:上线 3 个月,PRD 还是 V1.0。 后果:新人看 PRD 和实际产品对不上,决策没有文档追溯。 解法:PRD 是活文档,每次模型升级/Prompt 调整/数据更新都要同步。

六、PRD 评审的三个追问

如果你是评审者,用这三个问题检验一份 AI 产品 PRD 的质量:

  1. "模型输出了一段完全错误的内容,用户会看到什么?" -- 如果答不上来,失败态设计缺失。

  2. "日活 10 万时,每月推理成本是多少?" -- 如果答不上来,成本模型缺失。

  3. "上线第一天没有历史数据,产品怎么运行?" -- 如果答不上来,冷启动策略缺失。

好的 AI 产品 PRD 不是展示 AI 有多厉害的文档,而是老老实实说清楚"AI 什么时候会犯错,犯错了怎么办"的文档。承认不完美,才是通往优秀产品的起点。


Maurice | maurice_wen@proton.me