AI 产品指标体系设计

如果你不能衡量它,你就不能改进它——但 AI 产品的"衡量"比你想的难得多

一个真实的故事:某团队做了个 AI 写作助手,模型准确率 93%,团队开香槟庆祝。上线两周后,DAU 从 5000 跌到 800。复盘发现:准确率是高,但平均响应时间 8 秒,用户等不了直接关了。

问题出在哪?他们只看了"模型好不好",没看"产品好不好用"。

AI 产品的指标体系不是简单的"把准确率拉到最高"。它是一个多层结构,需要同时回答三个问题:模型行不行?用户买不买账?商业上划不划算?

一、AI 产品指标金字塔

这是我在多个项目中验证过的指标分层框架。从下到上,越往上离用户越近、离商业越近。

                    ┌─────────────┐
                    │   Business  │  <- 老板关心的
                    │   Metrics   │     营收、成本、ROI
                    ├─────────────┤
                    │   Product   │  <- PM 关心的
                    │   Metrics   │     留存、完成率、NPS
                    ├─────────────┤
                    │   Model     │  <- 工程师关心的
                    │   Metrics   │     准确率、延迟、成本
                    └─────────────┘

关键原则

  1. 底层是基础,但不是全部。模型指标是地基,但地基好不代表房子住着舒服。
  2. 上层指标驱动下层优化。先看业务指标定方向,再看产品指标找瓶颈,最后优化模型指标。
  3. 三层之间可能矛盾。准确率提升可能导致延迟增加,延迟增加导致留存下降。需要找平衡点。

二、模型层指标(Model Metrics)

模型层回答一个核心问题:AI 的输出质量如何?

2.1 通用模型指标

指标 定义 典型阈值 监控频率
Accuracy 输出正确的比例 > 90% 每日
Latency (P50/P95/P99) 推理响应时间 P95 < 3s 实时
Cost per Inference 单次推理成本 因场景而异 每日
Throughput 每秒处理请求数 因架构而异 实时
Hallucination Rate 幻觉/胡编比例 < 5% 每周抽检
Safety Filter Rate 被安全过滤的比例 监控趋势 每日

2.2 细分场景指标

不同 AI 能力需要不同的衡量方式:

文本生成:BLEU / ROUGE / 人工评分(1-5)
分类任务:Precision / Recall / F1
检索增强:Recall@K / MRR / NDCG
对话系统:多轮一致性 / 主题漂移率
推荐系统:CTR / 覆盖率 / 多样性

2.3 模型指标的陷阱

陷阱 1:平均值遮盖了长尾问题

准确率 92% 看起来不错,但如果 8% 的错误都集中在"退款咨询"这个高价值场景,实际损失可能比你想的大 10 倍。

解法:按场景/意图拆分指标,关注最差表现的 Top 5 场景。

陷阱 2:离线评估和线上表现脱节

测试集上 95% 准确率,上线后可能只有 80%。因为真实用户的表达比测试集混乱得多。

解法:建立"线上评估 -> 标注 -> 回流测试集"的闭环。

三、产品层指标(Product Metrics)

产品层回答一个核心问题:用户觉得好用吗?

3.1 核心产品指标

指标 定义 为什么重要
Task Completion Rate 用户完成目标任务的比例 AI 产品的核心价值衡量
AI Adoption Rate 主动使用 AI 功能的用户比例 区分"有人用"和"人人用"
Fallback Rate 转人工/放弃的比例 反映 AI 的实际能力边界
Retry Rate 用户重试/重新表述的比例 反映交互设计质量
Time to Value 从打开产品到获得价值的时间 反映上手难度
Retention (D1/D7/D30) 次日/7日/30日留存 长期价值验证
NPS / CSAT 净推荐值 / 客户满意度 主观体验衡量

3.2 AI 产品特有指标

这几个指标是传统产品不需要、但 AI 产品必须关注的:

AI 信任度指标

  • 用户对 AI 建议的采纳率
  • 用户手动修改 AI 输出的比例
  • 用户主动关闭 AI 功能的比例

交互质量指标

  • 单次交互轮数(越少越好,说明理解力强)
  • "再说一次/换个说法"的触发频率
  • 用户等待期间的放弃率

3.3 产品指标分析框架

用户来了(Acquisition)
  ↓
用了 AI 功能(Activation)     <- AI Adoption Rate
  ↓
完成了任务(Task Completion)  <- Task Completion Rate
  ↓
第二天又来了(Retention)      <- D1/D7/D30 Retention
  ↓
推荐给别人(Referral)         <- NPS
  ↓
付了钱(Revenue)              <- Conversion Rate

每一步都可能流失。用漏斗分析找到最大的"漏水口",集中精力修补。

四、业务层指标(Business Metrics)

业务层回答一个核心问题:这件事在商业上值不值?

4.1 核心业务指标

指标 计算方式 说明
AI 带来的收入增量 有 AI vs 无 AI 的收入差异 需要 A/B 测试或历史对比
AI 节省的成本 被 AI 替代的人工成本 最直接的 ROI 衡量
推理成本占比 推理成本 / 总收入 健康值 < 30%
单用户 AI 成本 总推理成本 / MAU 关注趋势,而非绝对值
AI ROI (收益 - 成本) / 成本 季度评估

4.2 成本结构拆解

AI 产品总成本 = 模型推理成本 + 基础设施 + 数据成本 + 人力成本

模型推理成本:
  - API 调用费  = 日均请求量 x 平均 token 数 x 单价
  - 自部署模型  = GPU 租赁/购置 + 运维

数据成本:
  - 标注成本    = 标注量 x 单价
  - 存储成本    = 数据量 x 存储单价
  - 清洗成本    = 人力 / 工具费

人力成本:
  - ML 工程师   = 模型训练、调优
  - Prompt 工程 = Prompt 设计、评估
  - 数据工程    = 数据管线维护

五、五类 AI 产品的指标体系实例

5.1 智能客服

模型层:意图识别准确率 > 92%  |  响应延迟 P95 < 2s
产品层:自动处理率 > 60%     |  转人工率 < 25%  |  首次解决率 > 75%
业务层:人工成本下降 40%     |  CSAT > 85%     |  推理成本 < 0.5元/会话

5.2 推荐系统

模型层:离线 AUC > 0.75     |  推理延迟 P99 < 100ms
产品层:点击率 > 8%          |  覆盖率 > 60%   |  多样性指数 > 0.4
业务层:GMV 提升 > 15%      |  人均下单数提升  |  推理成本 < 0.01元/次

5.3 AI 搜索

模型层:语义召回率 > 85%    |  排序 NDCG@10 > 0.6
产品层:点击率 > 30%        |  零结果率 < 5%   |  查询修改率 < 20%
业务层:搜索转化率提升 > 10% |  用户搜索留存 D7 > 50%

5.4 内容生成(文案/图片)

模型层:人工评分均值 > 3.8/5 |  生成延迟 < 10s
产品层:采纳率 > 60%         |  编辑率 < 40%   |  重新生成率 < 30%
业务层:内容产出效率提升 3x  |  内容质量不下降   |  推理成本 < 1元/篇

5.5 代码助手

模型层:代码建议采纳率 > 30% |  补全延迟 < 500ms
产品层:开发者使用率 > 70%   |  周活留存 > 80%  |  单日使用次数 > 20
业务层:开发效率提升 > 25%   |  Bug 引入率不增加 |  ROI > 3x

六、指标体系搭建四步法

Step 1:确定北极星指标

每个 AI 产品只需要一个北极星指标,它代表产品的核心价值。

产品类型           北极星指标
──────            ──────────
客服机器人         AI 自动解决率
推荐系统           推荐带来的 GMV
AI 搜索            搜索成功率(点击 + 完成任务)
内容生成           内容采纳率
代码助手           代码建议采纳率

Step 2:建立指标看板

实时看板(运维用):
  - 模型延迟、错误率、QPS
  - 服务可用性、Fallback 触发率

日报看板(PM 用):
  - 核心产品指标趋势
  - AI 采纳率、任务完成率
  - 用户反馈汇总

周报看板(管理层用):
  - 北极星指标趋势
  - 成本与 ROI
  - 关键问题与下周计划

Step 3:建立预警机制

预警级别 触发条件 响应方式
P0 紧急 模型服务不可用 / 准确率暴跌 > 20% 15 分钟内响应,切 Fallback
P1 严重 延迟 P95 > 5s / 转人工率激增 1 小时内定位原因
P2 关注 日活下降 > 10% / 采纳率持续下降 当日分析,次日方案
P3 观察 指标小幅波动在合理范围 周报汇总

Step 4:建立评估闭环

线上指标异常
  ↓
根因分析:是模型问题?产品问题?数据问题?
  ↓
模型问题 -> 抽样标注 -> 回流评估集 -> 模型迭代
产品问题 -> 用户调研 -> 交互优化 -> A/B 测试
数据问题 -> 数据质量审查 -> 清洗/补充 -> 重新训练
  ↓
指标恢复 -> 沉淀经验到知识库

七、避坑指南

坑 1:指标太多,什么都看等于什么都没看

症状:看板上 50+ 个指标,每次周会争论该看哪个。 解法:北极星指标 1 个 + 辅助指标不超过 5 个。其余放在"按需查看"层。

坑 2:只看平均值,不看分布

症状:平均延迟 1.5s,看起来不错。但 P99 是 15s,1% 的用户体验极差。 解法:延迟类指标必须看 P50/P95/P99,准确率类指标必须按场景拆分。

坑 3:模型指标和产品指标不联动

症状:模型团队自顾自优化准确率,产品团队自顾自看留存,两边数据对不上。 解法:建立"模型变更 -> 产品指标影响"的追踪机制。每次模型升级,必须同步观察产品指标变化。

坑 4:忽略推理成本的增长曲线

症状:早期用户少,推理成本可以忽略。用户涨了 10 倍,成本涨了 10 倍,利润反而下降。 解法:在用户增长预测中加入推理成本模型,提前规划成本优化(模型降级、缓存、蒸馏)。

坑 5:用"模型跑分"代替"用户感知"

症状:模型在 benchmark 上排名第一,但用户觉得"回答不像人话"。 解法:定期做"盲测"——让用户在不知道是 AI 还是人工的情况下评价质量。

八、指标驱动的决策示例

最后用一个决策流程串起全文:

观察:代码助手的周活留存从 80% 下降到 65%

Step 1 - 看产品层:
  发现代码建议采纳率从 35% 下降到 22%

Step 2 - 看模型层:
  发现模型准确率没变,但延迟 P95 从 400ms 升到 1200ms

Step 3 - 根因分析:
  近期切换了更大的模型版本,准确率微升但延迟翻倍

Step 4 - 决策:
  回退到旧模型版本,同时启动模型蒸馏项目
  目标:在保持准确率的前提下,延迟降回 500ms 以内

Step 5 - 验证:
  回退后一周,留存恢复到 78%,确认决策正确

指标不是用来装饰汇报 PPT 的。指标的唯一价值是:帮你做出更好的决策,更快。


Maurice | maurice_wen@proton.me