打印 / 导出 PDF

企业数据管理落地手册(可执行版)

覆盖:主数据管理(MDM)/ 元数据管理 / 数据血缘 / 数据质量 / 安全与隐私 / 生命周期 / 数据产品化交付 / 变更与运维
用法:把本页当作“治理作战手册”,逐条对照完成交付物、流程与监控。建议先跑通 1 条 P0 链路再规模化。

1. 目标与范围(先选 P0 场景)

落地顺序建议:先选 1 条 P0 数据链路(例如:经营核心看板 / 财务结算 / 监管报送)跑通,再扩到 P1/P2。

1.1 数据管理的四个结果

结果可验收标准
可发现能在目录中按“业务词/指标名/系统名”搜到;Owner明确;说明完整
可理解每个核心指标/表有口径、粒度、示例、更新频率、注意事项
可信质量规则覆盖;异常可告警;血缘可追;变更可影响分析
合规安全分级分类;最小权限;脱敏策略;访问审计;生命周期策略可执行

1.2 分层资产(建议统一术语)

资产类型举例治理侧重点
交易数据订单、支付、出入库流水质量、及时性、对账、审计
主数据客户/供应商/物料/组织统一ID、去重、流程、分发一致性
参考数据币种、地区、单位、税率代码代码表权威源、版本、有效期
分析数据数仓宽表、指标层、数据集市口径一致、血缘、SLA、成本
日志行为埋点、点击流、设备日志采集规范、隐私、保留策略、成本
如果你们的“口径冲突”严重,优先做:指标标准 + 语义层(指标层) + 变更门禁,否则治理会陷入永无止境的对齐会议。

2. 组织与RACI(治理能跑起来的前提)

2.1 角色定义

角色职责典型产出
Data Owner对某数据域/指标最终负责;有裁决权口径发布、权限审批、质量例外批准
Data Steward维护标准、目录、质量规则;推动闭环词典/字段释义、质量工单、数据产品文档
Custodian(平台/IT)实现采集、存储、权限、监控、作业运行ETL/调度、血缘采集、权限策略、审计报表
治理委员会跨部门决策(冲突口径、共享边界、合规)决议记录、优先级、例外处理

2.2 RACI模板(建议直接固化到制度)

对象:___________________(例如:客户主数据 / GMV指标 / 订单明细表)
Owner(A):_________________
Steward(R):_______________
Custodian(R):_____________
Consulted(C):_____________(财务/法务/风控/业务线)
Informed(I):______________(BI用户/上下游系统方)

审批清单:
- 新增/变更:Owner +(可选)会签C
- 权限开通:Owner + 安全/合规
- 口径发布:Owner + Steward
- 质量例外:Owner(必须记录原因与有效期)

3. 数据标准管理(治理“地基”)

3.1 标准四件套

术语标准(词典) 客户/订单/GMV等统一定义与同义词
数据元素标准 字段定义:类型/长度/允许值/敏感级别
指标标准(口径) 粒度、维度、计算逻辑、适用场景
编码标准 主数据编码、层级、有效期与版本

3.2 标准发布流程(建议)

步骤执行产出
提案Steward变更说明、影响范围、迁移计划
评审Owner + C批准/驳回/需补充
发布Steward版本号、生效日期、历史保留
执行Custodian血缘/表结构/语义层同步
验证Steward质量校验、报表对账通过

3.3 最低完备要求(落地门槛)

每个核心指标必须有:定义、公式/SQL、粒度、维度、口径边界(包含/不包含) 每个核心表必须有:Owner、描述、更新频率、主键、分区策略、字段注释 每个敏感字段必须有:分级分类、脱敏策略、访问审批策略 口径变更必须有:版本号、生效日期、历史对照与迁移说明

4. 主数据管理(MDM)落地SOP(可直接照做)

关键定义:黄金记录(Golden Record)= 同一业务对象在公司范围内的权威版本(唯一ID + 统一属性 + 历史可追溯)。

4.1 选择模式(先选能跑的)

模式适用情况优点风险/要求
集中式(Centralized) 新系统或可强制改造;需要强一致 口径最强、治理最彻底 改造量大,需要强组织推动
注册式(Registry) 存量系统多、短期难改造 上手快、改造小 一致性靠对齐与映射,权威性弱
共存式(Coexistence) 多系统写入不可避免(常见) 兼顾现实与治理 需明确“主写入域/字段”与冲突处理

4.2 主数据域上线交付物(必须清单)

对象模型与规则(最重要)
统一ID(如 customer_id / material_id)与编码规则(长度、段位、校验位) 属性字典:必填/可选、允许值、有效期、版本规则 去重匹配策略:匹配字段、权重、阈值、人工复核规则 合并策略:主记录选择、字段取值优先级、历史保留 停用/退役策略:状态机(Active/Inactive/Merged/Deprecated)
流程与系统对接(可运行)
新增/变更/停用审批流(Owner会签、证据附件) 同步分发:MDM → 下游系统(ERP/CRM/WMS/BI) 一致性对账:MDM vs 各系统差异报表(每日/每周) 审计:谁在何时改了哪些字段、原因与工单 质量监控:必填率、重复率、异常变更率、分发失败率

4.3 MDM标准作业流程(SOP)

输入:新增/变更申请(含对象类型、字段、证明材料、期望生效时间)
步骤:
1) 校验(自动):格式/必填/枚举/黑名单/重复候选(输出:通过/需补充/疑似重复列表)
2) 人工复核(如触发):Steward确认重复候选与合并策略
3) 审批:Owner审批;必要时财务/法务/风控会签(按域配置)
4) 生效:生成/更新统一ID,写入版本与有效期,记录审计日志
5) 分发:向下游系统发布(订阅/批量/实时);失败自动重试与告警
6) 对账:每日生成一致性差异;差异必须在SLA内闭环
7) 退役:停用/合并/归档(保留历史,不可硬删除)
常见失败点:没有明确“哪套系统对哪些字段是权威源”。建议按字段设定权威优先级(例如:客户税号以财务系统为准,客户联系人以CRM为准)。

5. 元数据管理(目录/标签/Owner)落地做法

5.1 元数据三类

类型内容采集方式
技术元数据库表字段、类型、分区、作业、SQL、调度依赖自动采集(扫描引擎/调度/ETL)
业务元数据中文名、业务定义、口径、使用场景、注意事项Steward/Owner维护(可从模板导入)
运营元数据访问量、热门度、SLA、质量评分、成本、失败率运行统计回写到目录

5.2 “最低可用目录”字段(建议作为上架门槛)

资产名称(中英)+ 简述(两句话说明用途与边界) Owner / Steward / 联系方式(至少一个可响应群/工单入口) 更新频率与SLA(T+1 / 小时级 / 实时) 粒度(行代表什么)+ 主键 + 分区策略 数据血缘(至少表级;P0要求字段级) 质量状态(规则覆盖数、近7天告警、健康度评分) 安全属性(分级分类、脱敏、访问路径) 使用示例(1~2条典型SQL/BI用法)
目录条目示例(可复制)
资产:dwd_order_detail(订单明细事实表)
用途:用于交易分析、GMV/订单数等指标的明细口径来源
粒度:一行=一个订单行项目(order_id + sku_id)
更新频率:小时级(SLA=每小时+10分钟)
Owner:XX(业务)  Steward:YY(数据)
口径边界:仅包含已支付订单;退款按refund_amount字段体现
注意事项:跨天分区;历史会修正(late arriving data)
血缘:src_order -> ods_order -> dwd_order_detail -> dws_gmv_hourly -> BI_经营看板
质量:非空(order_id, sku_id, pay_time),行数波动阈值±20%,对账=支付系统汇总
安全:L2内部;含手机号字段需动态脱敏

6. 数据血缘(Lineage)端到端落地

6.1 血缘覆盖范围(建议)

P0链路必须做到:源系统 → 同步/CDC → ODS → 明细/维表 → 汇总/指标层 → 报表/数据API 的端到端可追溯。
层级最低要求P0建议
表级血缘上下游依赖关系全覆盖
字段级血缘关键字段/指标字段核心字段必做
报表/指标血缘指标来自哪些表/字段经营与财务指标必做

6.2 三种实现路线(组合最好)

方式优点局限建议
代码解析(SQL/ETL)覆盖广、适配存量依赖规范,解析不全存量优先,新增配合规范
运行时采集准确度高依赖平台能力P0链路优先接入
声明式建模治理强、结构清晰建设成本高对新增资产强制
血缘的直接价值在“影响分析”。若做了血缘但没有接入变更流程与告警联动,实际收益会显著下降。
影响分析模板(变更必填)
变更对象:___________(表/字段/指标/作业)
变更类型:Schema变更 / 口径变更 / 作业逻辑变更 / 权限变更
影响下游(自动拉取血缘清单):
- 下游表:____________
- 下游指标:____________
- 下游报表:____________
风险评估:
- 是否影响历史数据:是/否(范围:____)
- 是否需要回填:是/否(方案:____)
发布策略:
- 灰度:____(按分区/按租户/按报表)
- 回滚点:____
通知:
- Owner/用户群:____
- 通知时间:____ 生效时间:____

7. 数据质量(DQ)落地:规则 + 监控 + 工单闭环

7.1 质量维度与示例规则

维度示例规则建议告警等级
完整性关键字段非空(order_id、pay_time)P0
准确性金额=明细汇总;税率匹配参考数据P0/P1
一致性维表匹配率≥99%;MDM与下游一致P1
及时性分区到达时间≤SLA;延迟告警P0
唯一性主键重复率=0P0
有效性枚举值合法;日期范围合理P1

7.2 DQ闭环流程(没有工单就等于没治理)

1) 监控:对P0资产配置规则(到达/行数/非空/重复/对账)
2) 告警:自动发送到Owner/Steward(带影响报表清单)
3) 定界:源系统问题 / 同步问题 / 处理作业问题 / 口径问题
4) 修复:补数/回滚/重跑/修口径(必须记录操作)
5) 验证:对账通过,告警关闭
6) 复盘:补充规则、完善标准、提高可观测性

7.3 P0推荐规则包(直接套用)

分区到达(必须) 行数波动(阈值:±20%或按历史分布) 主键重复(=0) 关键字段非空(业务主键/时间/金额) 汇总对账(与源系统/财务汇总一致,差异阈值) 下游影响识别(绑定血缘,告警带“受影响报表”)

7.4 DQ工单字段(模板)

工单标题:___________(例如:dwd_order_detail 行数突增)
严重等级:P0/P1/P2
发现时间:____ 影响范围:____(报表/指标/用户)
规则命中:____(行数/非空/对账等)
初步归因:源系统/同步/作业/口径
处理动作:重跑/回滚/补数/修规则/修口径
验证方式:对账SQL/抽样/报表验证
复盘与预防:新增规则/加强采集/补监控
Owner签字:____ 关闭时间:____

8. 安全与隐私(分级分类 + 最小权限 + 可审计)

8.1 分级分类(示例)

级别示例控制要求
L1 公共公开信息可公开
L2 内部经营数据(非敏感)登录可访问,最小权限
L3 机密成本、利润、合同等审批+审计+导出限制
L4 严格机密敏感个人信息、密钥类数据强审批/强脱敏/强审计/隔离环境

8.2 必做控制点

IAM:RBAC/ABAC,按域/表/列/行最小授权 脱敏:静态脱敏(落盘)+ 动态脱敏(查询时)策略明确 审计:查询/导出留痕;敏感数据访问可追踪到人 数据共享审批:用途限定、有效期、到期自动回收 安全基线:传输加密、存储加密、密钥轮换
如果你们允许“随意导出明细到本地”,即使权限做得再细也容易失控。建议对 L3/L4 做导出审批或水印审计。

9. 生命周期管理(Retention / Archive / Deletion)

9.1 落地方法

动作说明执行频率验收点
保留策略按数据类型与法规设置保留期制度固定目录里能查到保留期
归档策略冷热分层、压缩、降低成本月/季成本下降、可回溯
删除策略合规删除(含衍生与备份)按需可证明删除完成
口径版本指标/标准变更保留历史版本每次变更历史报表可复现
生命周期策略模板(可复制)
数据类型:____________(日志/交易/主数据/分析数据)
保留期:____________(例如:日志90天;财务明细10年)
归档方案:____________(例如:90天后转冷存储,按月分区)
删除触发:____________(到期/用户删除请求/合同终止)
删除范围:____________(源表 + 派生表 + 缓存 + 备份)
责任人:Owner / Custodian
审计要求:____________(删除证明、审批记录)

10. 数据产品化交付(让“表”变成可复用产品)

10.1 数据产品最小要素

目标用户与用途(解决什么问题) SLA(更新频率、可用性、延迟)与支持方式(群/工单) 版本(变更日志、兼容性策略) 文档(口径、粒度、使用示例) 质量状态(规则与健康度) 订阅机制(变更/异常自动通知订阅者)

10.2 推荐交付形态(按场景选)

形态适用优点注意
语义层/指标层经营指标统一口径减少重复指标必须做版本与口径治理
主题宽表分析/建模常用上手快控制膨胀与成本
数据API实时/系统集成复用强权限与审计更关键
特征服务机器学习线上一致训练/推理一致性与血缘

11. 变更与发布(门禁 + 影响分析 + 回滚)

核心原则:任何会影响 P0/P1 数据产品的变更,都必须先做影响分析并通知订阅者;能回滚;有验证。

11.1 变更门禁(建议强制)

门禁项说明适用
血缘影响分析自动列出下游表/指标/报表P0/P1
质量校验发布前跑规则包与对账P0/P1
兼容性检查Schema变更需兼容或提供迁移全部
回滚预案回滚点、回滚步骤、负责人P0/P1
发布通知模板(建议自动化)
主题:【数据产品变更】__________(产品名) v__ 生效于 ____
变更内容:__________(Schema/口径/逻辑/权限)
影响范围:__________(报表/指标/下游系统)
兼容性:兼容/不兼容(不兼容迁移指引:____)
回滚方案:____(回滚点:____)
验证结果:质量规则通过;对账差异:____
联系人:Owner ____  Steward ____

12. 指标与仪表盘(治理成效可量化)

目录完备率 核心资产(P0/P1)具备 Owner/定义/血缘/敏感级别 的比例
质量规则覆盖率 P0资产规则包覆盖;告警响应时间(MTTA)与关闭时间(MTTR)
口径冲突数下降 同名不同义、同义不同名的指标/字段数量趋势
复用率提升 重复表/重复指标减少;语义层被调用次数提升
建议做一个“数据健康度”评分(目录里展示)
健康度 = 元数据完备(30) + 质量表现(40) + SLA达成(20) + 使用热度(10)
其中:
- 元数据完备:Owner/描述/示例/敏感级别/血缘
- 质量表现:近7天告警次数、对账差异、规则覆盖
- SLA达成:延迟、成功率
- 使用热度:访问量/订阅数
用途:让用户选“更健康”的数据资产;推动Owner主动治理

13. 实施路线图(从0到可规模化)

Phase 0:对齐与盘点(先把“要治理什么”说清)

选定 1 条 P0 链路(经营/财务/监管三选一) 盘点:表/指标/报表/作业/系统边界 + Owner 列出:口径冲突点、质量痛点、权限风险、成本问题

Phase 1:最小可用治理(让“查得到、看得懂、可追溯”)

建立RACI与审批/变更流程 上线目录(元数据)+ 表级血缘 + P0质量规则包 关键指标口径固化(指标手册/语义层)

Phase 2:深入(MDM/字段级血缘/质量门禁)

上线 1~2 个主数据域(客户/物料优先) P0链路字段级血缘覆盖关键字段 发布前质量门禁(不通过不发布)

Phase 3:规模化(自动化与成本治理)

订阅机制与变更通知自动化 冷热分层、作业与存储成本治理 全域数据产品化运营(版本、支持、NPS)

14. 模板区(可直接复制粘贴到制度/工单/文档)

14.1 《业务术语词典》条目模板
术语:__________
英文:__________
定义:__________
同义词/别名:__________
反例(避免误用):__________
Owner:____  Steward:____
适用范围:____(系统/报表/业务线)
生效版本:v__  生效日期:____
14.2 《数据元素标准》字段模板
字段名:__________  中文名:__________
类型/长度:__________  允许值:__________
是否必填:是/否  默认值:____
业务定义:__________
来源系统:____  来源字段:____
敏感级别:L1/L2/L3/L4  脱敏策略:____
质量规则:非空/范围/格式/枚举/关联一致
Owner:____  Steward:____
备注:__________
14.3 《指标口径手册》模板
指标名:__________(中/英)
定义:__________
粒度:__________(例如:按天/按店/按商品)
维度:__________(时间/地区/渠道…)
公式/SQL:__________
口径边界:包含/不包含(例如:是否含退款/取消/税费)
数据来源:__________(表/字段/血缘链路)
更新频率与SLA:__________
Owner:____  Steward:____
版本:v__  生效日期:____  变更说明:____
14.4 《数据产品说明》模板
产品名称:__________
形态:语义层/宽表/API/特征
目标用户:__________
使用场景:__________
SLA:__________
数据口径与粒度:__________
血缘:__________
质量规则与健康度:__________
权限申请方式:__________
版本与变更日志:__________
支持渠道:__________(群/工单)
Owner:____  Steward:____

15. 终极检查清单(P0链路/MDM域上线必过)

15.1 一条P0数据链路必须具备

Owner/Steward明确,支持入口明确(群/工单) 指标口径与公式/SQL固化,版本可追 端到端血缘(至少表级,关键字段字段级) 质量规则包:到达、行数波动、主键重复、关键非空、对账 告警与SLA:延迟、失败;MTTA/MTTR可统计 权限最小化:分级分类、脱敏策略、审计留痕 变更门禁:影响分析、验证、回滚预案、通知订阅者

15.2 一个MDM域上线必须具备

统一ID与编码规则;状态机与有效期 去重匹配与人工复核机制(阈值/权重/证据) 审批流(新增/变更/停用/合并)与审计日志 分发与一致性对账(MDM vs 下游) 质量监控:重复率、必填率、异常变更率、分发失败率