AI 产品 PRD 撰写指南与模版

原创灵阙教研团队

S 精选入门 | 约 9 分钟阅读更新于 2026-02-27

AI 导读

AI 产品 PRD 撰写指南与模版写好一份 AI 产品 PRD，80% 的坑就提前填上了你有没有经历过这样的场景？ PRD 写得很漂亮：用户输入问题，AI 返回答案，界面清爽简洁。开发做完了，测试也过了，上线第一天——用户问了句方言，AI 回了段英文；问了个敏感话题，AI 侃侃而谈；高峰期响应 15 秒，用户以为卡死了疯狂刷新。这些问题，不是开发的锅，是 PRD 的锅。传统 PRD...

AI 产品 PRD 撰写指南与模版

写好一份 AI 产品 PRD，80% 的坑就提前填上了

你有没有经历过这样的场景？

PRD 写得很漂亮：用户输入问题，AI 返回答案，界面清爽简洁。开发做完了，测试也过了，上线第一天——用户问了句方言，AI 回了段英文；问了个敏感话题，AI 侃侃而谈；高峰期响应 15 秒，用户以为卡死了疯狂刷新。

这些问题，不是开发的锅，是 PRD 的锅。传统 PRD 假设系统是确定性的——输入 A 必然得到输出 B。但 AI 产品天生是概率性的——输入 A 可能得到 B、C、D，甚至得到一堆胡话。

这篇文章会告诉你：AI 产品的 PRD 和传统 PRD 到底差在哪，以及一套经过实战验证的模版。

一、AI 产品 PRD 的四大特殊性

1.1 传统 PRD vs AI 产品 PRD

维度	传统产品 PRD	AI 产品 PRD
输出确定性	确定：按钮点了就跳转	概率性：同一输入可能不同输出
错误处理	明确的错误码和提示	需要处理"模型幻觉""不确定性"
数据依赖	功能不依赖历史数据	模型质量强依赖训练/评估数据
迭代方式	加功能、改 UI	换模型、调 Prompt、加数据
成本结构	固定（服务器）	可变（每次推理都花钱）
用户预期	精确匹配	需要管理"AI 不是万能的"预期

1.2 AI PRD 必须额外回答的四个问题

Q1: 模型错了怎么办？（Failure State Design）
Q2: 数据从哪来、够不够？（Data Strategy）
Q3: 一次推理花多少钱？（Cost per Inference）
Q4: 怎么衡量"好不好用"？（Evaluation beyond NPS）

这四个问题，传统 PRD 一个都不需要回答。但在 AI 产品里，漏掉任何一个都可能导致项目失败。

二、AI 产品 PRD 完整模版

以下是经过多个项目验证的模版结构。每个章节后面的标注说明是否为 AI 产品特有。

模版结构总览

1. 问题与背景              [通用]
2. AI 能力映射              [AI 特有]
3. 数据需求与策略           [AI 特有]
4. 模型选型与理由           [AI 特有]
5. 用户体验设计             [通用，但含失败态]
6. 评估指标体系             [AI 特有]
7. 伦理与合规考量           [AI 特有]
8. 迭代计划与模型升级路径    [AI 特有]
9. 非目标与边界             [通用]
10. 依赖与风险              [通用]

2.1 问题与背景

## 1. 问题与背景

### 1.1 目标用户
- 用户画像：[谁在用？什么场景？什么频率？]
- 当前痛点：[没有 AI 时，用户怎么做？花多少时间/钱？]
- 期望收益：[用了 AI 后，节省多少时间/钱？体验提升多少？]

### 1.2 业务背景
- 市场规模：[TAM/SAM/SOM]
- 竞品现状：[谁在做？做到什么程度？]
- 战略定位：[为什么是现在做？为什么是我们做？]

### 1.3 成功标准（30/60/90 天）
- 30 天：[MVP 验证标准]
- 60 天：[增长标准]
- 90 天：[商业化标准]

2.2 AI 能力映射（AI 特有）

这是最容易被忽略、也最容易出问题的章节。

## 2. AI 能力映射

### 2.1 核心 AI 能力
| 能力 | 技术路径 | 成熟度 | 可靠性预期 |
|------|----------|--------|------------|
| [例：意图识别] | [NLU/LLM] | [成熟/实验] | [95%/80%/60%] |

### 2.2 能力边界（必须写清楚）
- 能做什么：[明确列出]
- 不能做什么：[明确列出，更重要]
- 灰色地带：[能做但不稳定的场景，需要人工兜底]

### 2.3 人机协作策略
- 全自动场景：[AI 置信度 > X% 时自动处理]
- 半自动场景：[AI 给建议，人工确认]
- 人工兜底场景：[AI 无法处理时，转人工的流程]

2.3 数据需求与策略（AI 特有）

## 3. 数据需求与策略

### 3.1 训练/评估数据
| 数据类型 | 数据量 | 来源 | 标注需求 | 获取成本 |
|----------|--------|------|----------|----------|
| [例：客服对话] | [10万条] | [历史记录] | [意图标注] | [内部，低] |

### 3.2 数据管线
- 数据采集 -> 清洗 -> 标注 -> 训练 -> 评估
- 数据更新频率：[实时/日更/周更]
- 数据质量监控：[异常检测机制]

### 3.3 冷启动策略
- [无历史数据时的方案：合成数据/迁移学习/规则兜底]

2.4 模型选型与理由（AI 特有）

## 4. 模型选型

### 4.1 候选模型对比
| 模型 | 准确率 | 延迟 | 成本/次 | 部署方式 | 选型结论 |
|------|--------|------|---------|----------|----------|
| GPT-4o | 92% | 2s | $0.03 | API | 备选 |
| Claude Sonnet | 90% | 1.5s | $0.015 | API | 主选 |
| Gemini Flash | 85% | 0.5s | $0.002 | API | 高并发兜底 |

### 4.2 选型理由
- 主模型：[选择理由，权衡说明]
- Fallback 链：[主模型 -> 备选1 -> 备选2]
- 升级路径：[什么条件下换模型]

2.5 用户体验设计（含失败态）

## 5. 用户体验设计

### 5.1 核心交互流程
[标准的用户流程图]

### 5.2 失败态设计（AI 特有，必须详细）

| 失败场景 | 触发条件 | 用户看到什么 | 系统动作 |
|----------|----------|-------------|----------|
| 模型超时 | 响应 > 5s | 骨架屏 + "正在思考" | 自动重试1次 |
| 低置信度 | 置信度 < 60% | "我不太确定，建议您..." | 记录用于改进 |
| 模型幻觉 | 事实检查失败 | 不展示 + 转人工 | 告警 + 标注 |
| 敏感内容 | 安全过滤命中 | "无法回答此类问题" | 记录 + 审查 |
| 服务降级 | 主模型不可用 | 功能可用但质量下降 | 切 Fallback |

### 5.3 不确定性表达
- 高置信度（>90%）：直接展示结果
- 中置信度（60-90%）：展示结果 + "仅供参考"标签
- 低置信度（<60%）：不展示 + 引导人工处理

三、实战案例：智能客服产品 PRD 节选

以下是一个真实项目的 PRD 关键节选（脱敏后），展示上述模版如何落地。

3.1 问题与背景

目标用户：电商平台客服团队（日均咨询量 5000+）

当前痛点：

70% 的咨询是重复问题（物流查询、退换货政策）
人工客服平均响应时间 3 分钟
夜间无人值守，错过 15% 的咨询

成功标准：

30 天：AI 自动处理率 > 40%，用户满意度 > 85%
60 天：AI 自动处理率 > 60%，人工客服工作量下降 30%
90 天：7x24 覆盖，夜间咨询响应率 > 95%

3.2 能力边界（最关键的部分）

能做（全自动）：
  - 物流查询（调用物流 API + 模板话术）
  - FAQ 问答（基于知识库检索）
  - 订单状态查询（调用订单 API）

能做但需人工确认（半自动）：
  - 退换货审批（AI 预判 + 人工审核）
  - 优惠券发放（AI 推荐方案 + 人工确认）

不能做（直接转人工）：
  - 投诉处理（情绪安抚需要人）
  - 异常订单（金额 > 5000 或 VIP 客户）
  - 敏感话题（法律纠纷、人身安全）

3.3 关键指标

模型层指标：
  - 意图识别准确率 > 92%
  - 知识库检索召回率 > 85%
  - 响应延迟 < 2s（P95）

产品层指标：
  - AI 自动处理率（目标 60%）
  - 转人工率（目标 < 30%）
  - 首次解决率（目标 > 75%）

业务层指标：
  - 人工客服成本下降比例
  - 用户满意度（CSAT > 85%）
  - 夜间覆盖率

四、PRD 撰写检查清单

写完 PRD 后，用这个清单过一遍：

基础要素：
[ ] 目标用户和痛点是否清晰？
[ ] 成功标准是否可量化？
[ ] 非目标是否明确？

AI 特有要素：
[ ] 能力边界是否写清楚了"不能做什么"？
[ ] 失败态设计是否覆盖了至少 5 种场景？
[ ] 数据策略是否包含冷启动方案？
[ ] 模型选型是否有 Fallback 链？
[ ] 成本估算是否包含推理成本？
[ ] 评估指标是否分了模型/产品/业务三层？
[ ] 伦理合规是否考虑了数据隐私和内容安全？

可执行性：
[ ] 开发读完能不能直接干活？
[ ] 测试读完能不能写测试用例？
[ ] 运营读完能不能准备上线方案？

五、避坑指南

坑 1：只写"正常路径"

症状：PRD 里只有"用户提问 -> AI 回答 -> 用户满意"。后果：上线后 30% 的交互是异常路径，没人知道怎么处理。解法：失败态设计的篇幅至少占 PRD 的 20%。

坑 2：把模型能力当确定性承诺

症状：PRD 写"AI 准确率 99%"。后果：1% 的错误在千万级流量下就是 10 万次错误。解法：写区间而不是单点值，写"目标 92-95%"而不是"99%"。

坑 3：忽略推理成本

症状：PRD 没算过"一次对话要花多少钱"。后果：用户越多越亏钱，老板质问"为什么 AI 比人工还贵"。解法：PRD 里必须有成本估算表：日均请求量 x 单次成本 = 日均推理费用。

坑 4：评估指标只有准确率

症状：PRD 里的成功标准只有"模型准确率 > 90%"。后果：模型很准但用户不买账（太慢、太冷冰冰、不像人话）。解法：三层指标体系——模型层 + 产品层 + 业务层，缺一不可。

坑 5：PRD 写完就不更新

症状：上线 3 个月，PRD 还是 V1.0。后果：新人看 PRD 和实际产品对不上，决策没有文档追溯。解法：PRD 是活文档，每次模型升级/Prompt 调整/数据更新都要同步。

六、PRD 评审的三个追问

如果你是评审者，用这三个问题检验一份 AI 产品 PRD 的质量：

"模型输出了一段完全错误的内容，用户会看到什么？" -- 如果答不上来，失败态设计缺失。
"日活 10 万时，每月推理成本是多少？" -- 如果答不上来，成本模型缺失。
"上线第一天没有历史数据，产品怎么运行？" -- 如果答不上来，冷启动策略缺失。

好的 AI 产品 PRD 不是展示 AI 有多厉害的文档，而是老老实实说清楚"AI 什么时候会犯错，犯错了怎么办"的文档。承认不完美，才是通往优秀产品的起点。

Maurice | maurice_wen@proton.me