企业数据管理落地手册(MDM/元数据/血缘/质量/安全)
原创
灵阙教研团队
S 精选 进阶 |
约 15 分钟阅读
更新于 2026-01-15 AI 导读
打印 / 导出 PDF 企业数据管理落地手册(可执行版) 覆盖:主数据管理(MDM)/ 元数据管理 / 数据血缘 / 数据质量 / 安全与隐私 / 生命周期 / 数据产品化交付 / 变更与运维 用法:把本页当作“治理作战手册”,逐条对照完成交付物、流程与监控。建议先跑通 1 条 P0 链路再规模化。 目录 1. 目标与范围(P0优先) 2. 组织与RACI(必须先定) 3....
打印 / 导出 PDF
企业数据管理落地手册(可执行版)
1. 目标与范围(先选 P0 场景)
落地顺序建议:先选 1 条 P0 数据链路(例如:经营核心看板 / 财务结算 / 监管报送)跑通,再扩到 P1/P2。
1.1 数据管理的四个结果
| 结果 | 可验收标准 |
|---|---|
| 可发现 | 能在目录中按“业务词/指标名/系统名”搜到;Owner明确;说明完整 |
| 可理解 | 每个核心指标/表有口径、粒度、示例、更新频率、注意事项 |
| 可信 | 质量规则覆盖;异常可告警;血缘可追;变更可影响分析 |
| 合规安全 | 分级分类;最小权限;脱敏策略;访问审计;生命周期策略可执行 |
1.2 分层资产(建议统一术语)
| 资产类型 | 举例 | 治理侧重点 |
|---|---|---|
| 交易数据 | 订单、支付、出入库流水 | 质量、及时性、对账、审计 |
| 主数据 | 客户/供应商/物料/组织 | 统一ID、去重、流程、分发一致性 |
| 参考数据 | 币种、地区、单位、税率代码 | 代码表权威源、版本、有效期 |
| 分析数据 | 数仓宽表、指标层、数据集市 | 口径一致、血缘、SLA、成本 |
| 日志行为 | 埋点、点击流、设备日志 | 采集规范、隐私、保留策略、成本 |
如果你们的“口径冲突”严重,优先做:指标标准 + 语义层(指标层) + 变更门禁,否则治理会陷入永无止境的对齐会议。
2. 组织与RACI(治理能跑起来的前提)
2.1 角色定义
| 角色 | 职责 | 典型产出 |
|---|---|---|
| Data Owner | 对某数据域/指标最终负责;有裁决权 | 口径发布、权限审批、质量例外批准 |
| Data Steward | 维护标准、目录、质量规则;推动闭环 | 词典/字段释义、质量工单、数据产品文档 |
| Custodian(平台/IT) | 实现采集、存储、权限、监控、作业运行 | ETL/调度、血缘采集、权限策略、审计报表 |
| 治理委员会 | 跨部门决策(冲突口径、共享边界、合规) | 决议记录、优先级、例外处理 |
2.2 RACI模板(建议直接固化到制度)
对象:___________________(例如:客户主数据 / GMV指标 / 订单明细表) Owner(A):_________________ Steward(R):_______________ Custodian(R):_____________ Consulted(C):_____________(财务/法务/风控/业务线) Informed(I):______________(BI用户/上下游系统方) 审批清单: - 新增/变更:Owner +(可选)会签C - 权限开通:Owner + 安全/合规 - 口径发布:Owner + Steward - 质量例外:Owner(必须记录原因与有效期)
3. 数据标准管理(治理“地基”)
3.1 标准四件套
术语标准(词典)
客户/订单/GMV等统一定义与同义词
数据元素标准
字段定义:类型/长度/允许值/敏感级别
指标标准(口径)
粒度、维度、计算逻辑、适用场景
编码标准
主数据编码、层级、有效期与版本
3.2 标准发布流程(建议)
| 步骤 | 执行 | 产出 |
|---|---|---|
| 提案 | Steward | 变更说明、影响范围、迁移计划 |
| 评审 | Owner + C | 批准/驳回/需补充 |
| 发布 | Steward | 版本号、生效日期、历史保留 |
| 执行 | Custodian | 血缘/表结构/语义层同步 |
| 验证 | Steward | 质量校验、报表对账通过 |
3.3 最低完备要求(落地门槛)
每个核心指标必须有:定义、公式/SQL、粒度、维度、口径边界(包含/不包含)
每个核心表必须有:Owner、描述、更新频率、主键、分区策略、字段注释
每个敏感字段必须有:分级分类、脱敏策略、访问审批策略
口径变更必须有:版本号、生效日期、历史对照与迁移说明
4. 主数据管理(MDM)落地SOP(可直接照做)
关键定义:黄金记录(Golden Record)= 同一业务对象在公司范围内的权威版本(唯一ID + 统一属性 + 历史可追溯)。
4.1 选择模式(先选能跑的)
| 模式 | 适用情况 | 优点 | 风险/要求 |
|---|---|---|---|
| 集中式(Centralized) | 新系统或可强制改造;需要强一致 | 口径最强、治理最彻底 | 改造量大,需要强组织推动 |
| 注册式(Registry) | 存量系统多、短期难改造 | 上手快、改造小 | 一致性靠对齐与映射,权威性弱 |
| 共存式(Coexistence) | 多系统写入不可避免(常见) | 兼顾现实与治理 | 需明确“主写入域/字段”与冲突处理 |
4.2 主数据域上线交付物(必须清单)
对象模型与规则(最重要)
统一ID(如 customer_id / material_id)与编码规则(长度、段位、校验位)
属性字典:必填/可选、允许值、有效期、版本规则
去重匹配策略:匹配字段、权重、阈值、人工复核规则
合并策略:主记录选择、字段取值优先级、历史保留
停用/退役策略:状态机(Active/Inactive/Merged/Deprecated)
流程与系统对接(可运行)
新增/变更/停用审批流(Owner会签、证据附件)
同步分发:MDM → 下游系统(ERP/CRM/WMS/BI)
一致性对账:MDM vs 各系统差异报表(每日/每周)
审计:谁在何时改了哪些字段、原因与工单
质量监控:必填率、重复率、异常变更率、分发失败率
4.3 MDM标准作业流程(SOP)
输入:新增/变更申请(含对象类型、字段、证明材料、期望生效时间) 步骤: 1) 校验(自动):格式/必填/枚举/黑名单/重复候选(输出:通过/需补充/疑似重复列表) 2) 人工复核(如触发):Steward确认重复候选与合并策略 3) 审批:Owner审批;必要时财务/法务/风控会签(按域配置) 4) 生效:生成/更新统一ID,写入版本与有效期,记录审计日志 5) 分发:向下游系统发布(订阅/批量/实时);失败自动重试与告警 6) 对账:每日生成一致性差异;差异必须在SLA内闭环 7) 退役:停用/合并/归档(保留历史,不可硬删除)
常见失败点:没有明确“哪套系统对哪些字段是权威源”。建议按字段设定权威优先级(例如:客户税号以财务系统为准,客户联系人以CRM为准)。
5. 元数据管理(目录/标签/Owner)落地做法
5.1 元数据三类
| 类型 | 内容 | 采集方式 |
|---|---|---|
| 技术元数据 | 库表字段、类型、分区、作业、SQL、调度依赖 | 自动采集(扫描引擎/调度/ETL) |
| 业务元数据 | 中文名、业务定义、口径、使用场景、注意事项 | Steward/Owner维护(可从模板导入) |
| 运营元数据 | 访问量、热门度、SLA、质量评分、成本、失败率 | 运行统计回写到目录 |
5.2 “最低可用目录”字段(建议作为上架门槛)
资产名称(中英)+ 简述(两句话说明用途与边界)
Owner / Steward / 联系方式(至少一个可响应群/工单入口)
更新频率与SLA(T+1 / 小时级 / 实时)
粒度(行代表什么)+ 主键 + 分区策略
数据血缘(至少表级;P0要求字段级)
质量状态(规则覆盖数、近7天告警、健康度评分)
安全属性(分级分类、脱敏、访问路径)
使用示例(1~2条典型SQL/BI用法)
目录条目示例(可复制)
资产:dwd_order_detail(订单明细事实表) 用途:用于交易分析、GMV/订单数等指标的明细口径来源 粒度:一行=一个订单行项目(order_id + sku_id) 更新频率:小时级(SLA=每小时+10分钟) Owner:XX(业务) Steward:YY(数据) 口径边界:仅包含已支付订单;退款按refund_amount字段体现 注意事项:跨天分区;历史会修正(late arriving data) 血缘:src_order -> ods_order -> dwd_order_detail -> dws_gmv_hourly -> BI_经营看板 质量:非空(order_id, sku_id, pay_time),行数波动阈值±20%,对账=支付系统汇总 安全:L2内部;含手机号字段需动态脱敏
6. 数据血缘(Lineage)端到端落地
6.1 血缘覆盖范围(建议)
P0链路必须做到:源系统 → 同步/CDC → ODS → 明细/维表 → 汇总/指标层 → 报表/数据API 的端到端可追溯。
| 层级 | 最低要求 | P0建议 |
|---|---|---|
| 表级血缘 | 上下游依赖关系 | 全覆盖 |
| 字段级血缘 | 关键字段/指标字段 | 核心字段必做 |
| 报表/指标血缘 | 指标来自哪些表/字段 | 经营与财务指标必做 |
6.2 三种实现路线(组合最好)
| 方式 | 优点 | 局限 | 建议 |
|---|---|---|---|
| 代码解析(SQL/ETL) | 覆盖广、适配存量 | 依赖规范,解析不全 | 存量优先,新增配合规范 |
| 运行时采集 | 准确度高 | 依赖平台能力 | P0链路优先接入 |
| 声明式建模 | 治理强、结构清晰 | 建设成本高 | 对新增资产强制 |
血缘的直接价值在“影响分析”。若做了血缘但没有接入变更流程与告警联动,实际收益会显著下降。
影响分析模板(变更必填)
变更对象:___________(表/字段/指标/作业) 变更类型:Schema变更 / 口径变更 / 作业逻辑变更 / 权限变更 影响下游(自动拉取血缘清单): - 下游表:____________ - 下游指标:____________ - 下游报表:____________ 风险评估: - 是否影响历史数据:是/否(范围:____) - 是否需要回填:是/否(方案:____) 发布策略: - 灰度:____(按分区/按租户/按报表) - 回滚点:____ 通知: - Owner/用户群:____ - 通知时间:____ 生效时间:____
7. 数据质量(DQ)落地:规则 + 监控 + 工单闭环
7.1 质量维度与示例规则
| 维度 | 示例规则 | 建议告警等级 |
|---|---|---|
| 完整性 | 关键字段非空(order_id、pay_time) | P0 |
| 准确性 | 金额=明细汇总;税率匹配参考数据 | P0/P1 |
| 一致性 | 维表匹配率≥99%;MDM与下游一致 | P1 |
| 及时性 | 分区到达时间≤SLA;延迟告警 | P0 |
| 唯一性 | 主键重复率=0 | P0 |
| 有效性 | 枚举值合法;日期范围合理 | P1 |
7.2 DQ闭环流程(没有工单就等于没治理)
1) 监控:对P0资产配置规则(到达/行数/非空/重复/对账) 2) 告警:自动发送到Owner/Steward(带影响报表清单) 3) 定界:源系统问题 / 同步问题 / 处理作业问题 / 口径问题 4) 修复:补数/回滚/重跑/修口径(必须记录操作) 5) 验证:对账通过,告警关闭 6) 复盘:补充规则、完善标准、提高可观测性
7.3 P0推荐规则包(直接套用)
分区到达(必须)
行数波动(阈值:±20%或按历史分布)
主键重复(=0)
关键字段非空(业务主键/时间/金额)
汇总对账(与源系统/财务汇总一致,差异阈值)
下游影响识别(绑定血缘,告警带“受影响报表”)
7.4 DQ工单字段(模板)
工单标题:___________(例如:dwd_order_detail 行数突增) 严重等级:P0/P1/P2 发现时间:____ 影响范围:____(报表/指标/用户) 规则命中:____(行数/非空/对账等) 初步归因:源系统/同步/作业/口径 处理动作:重跑/回滚/补数/修规则/修口径 验证方式:对账SQL/抽样/报表验证 复盘与预防:新增规则/加强采集/补监控 Owner签字:____ 关闭时间:____
8. 安全与隐私(分级分类 + 最小权限 + 可审计)
8.1 分级分类(示例)
| 级别 | 示例 | 控制要求 |
|---|---|---|
| L1 公共 | 公开信息 | 可公开 |
| L2 内部 | 经营数据(非敏感) | 登录可访问,最小权限 |
| L3 机密 | 成本、利润、合同等 | 审批+审计+导出限制 |
| L4 严格机密 | 敏感个人信息、密钥类数据 | 强审批/强脱敏/强审计/隔离环境 |
8.2 必做控制点
IAM:RBAC/ABAC,按域/表/列/行最小授权
脱敏:静态脱敏(落盘)+ 动态脱敏(查询时)策略明确
审计:查询/导出留痕;敏感数据访问可追踪到人
数据共享审批:用途限定、有效期、到期自动回收
安全基线:传输加密、存储加密、密钥轮换
如果你们允许“随意导出明细到本地”,即使权限做得再细也容易失控。建议对 L3/L4 做导出审批或水印审计。
9. 生命周期管理(Retention / Archive / Deletion)
9.1 落地方法
| 动作 | 说明 | 执行频率 | 验收点 |
|---|---|---|---|
| 保留策略 | 按数据类型与法规设置保留期 | 制度固定 | 目录里能查到保留期 |
| 归档策略 | 冷热分层、压缩、降低成本 | 月/季 | 成本下降、可回溯 |
| 删除策略 | 合规删除(含衍生与备份) | 按需 | 可证明删除完成 |
| 口径版本 | 指标/标准变更保留历史版本 | 每次变更 | 历史报表可复现 |
生命周期策略模板(可复制)
数据类型:____________(日志/交易/主数据/分析数据) 保留期:____________(例如:日志90天;财务明细10年) 归档方案:____________(例如:90天后转冷存储,按月分区) 删除触发:____________(到期/用户删除请求/合同终止) 删除范围:____________(源表 + 派生表 + 缓存 + 备份) 责任人:Owner / Custodian 审计要求:____________(删除证明、审批记录)
10. 数据产品化交付(让“表”变成可复用产品)
10.1 数据产品最小要素
目标用户与用途(解决什么问题)
SLA(更新频率、可用性、延迟)与支持方式(群/工单)
版本(变更日志、兼容性策略)
文档(口径、粒度、使用示例)
质量状态(规则与健康度)
订阅机制(变更/异常自动通知订阅者)
10.2 推荐交付形态(按场景选)
| 形态 | 适用 | 优点 | 注意 |
|---|---|---|---|
| 语义层/指标层 | 经营指标统一口径 | 减少重复指标 | 必须做版本与口径治理 |
| 主题宽表 | 分析/建模常用 | 上手快 | 控制膨胀与成本 |
| 数据API | 实时/系统集成 | 复用强 | 权限与审计更关键 |
| 特征服务 | 机器学习 | 线上一致 | 训练/推理一致性与血缘 |
11. 变更与发布(门禁 + 影响分析 + 回滚)
核心原则:任何会影响 P0/P1 数据产品的变更,都必须先做影响分析并通知订阅者;能回滚;有验证。
11.1 变更门禁(建议强制)
| 门禁项 | 说明 | 适用 |
|---|---|---|
| 血缘影响分析 | 自动列出下游表/指标/报表 | P0/P1 |
| 质量校验 | 发布前跑规则包与对账 | P0/P1 |
| 兼容性检查 | Schema变更需兼容或提供迁移 | 全部 |
| 回滚预案 | 回滚点、回滚步骤、负责人 | P0/P1 |
发布通知模板(建议自动化)
主题:【数据产品变更】__________(产品名) v__ 生效于 ____ 变更内容:__________(Schema/口径/逻辑/权限) 影响范围:__________(报表/指标/下游系统) 兼容性:兼容/不兼容(不兼容迁移指引:____) 回滚方案:____(回滚点:____) 验证结果:质量规则通过;对账差异:____ 联系人:Owner ____ Steward ____
12. 指标与仪表盘(治理成效可量化)
目录完备率
核心资产(P0/P1)具备 Owner/定义/血缘/敏感级别 的比例
质量规则覆盖率
P0资产规则包覆盖;告警响应时间(MTTA)与关闭时间(MTTR)
口径冲突数下降
同名不同义、同义不同名的指标/字段数量趋势
复用率提升
重复表/重复指标减少;语义层被调用次数提升
建议做一个“数据健康度”评分(目录里展示)
健康度 = 元数据完备(30) + 质量表现(40) + SLA达成(20) + 使用热度(10) 其中: - 元数据完备:Owner/描述/示例/敏感级别/血缘 - 质量表现:近7天告警次数、对账差异、规则覆盖 - SLA达成:延迟、成功率 - 使用热度:访问量/订阅数 用途:让用户选“更健康”的数据资产;推动Owner主动治理
13. 实施路线图(从0到可规模化)
Phase 0:对齐与盘点(先把“要治理什么”说清)
选定 1 条 P0 链路(经营/财务/监管三选一)
盘点:表/指标/报表/作业/系统边界 + Owner
列出:口径冲突点、质量痛点、权限风险、成本问题
Phase 1:最小可用治理(让“查得到、看得懂、可追溯”)
建立RACI与审批/变更流程
上线目录(元数据)+ 表级血缘 + P0质量规则包
关键指标口径固化(指标手册/语义层)
Phase 2:深入(MDM/字段级血缘/质量门禁)
上线 1~2 个主数据域(客户/物料优先)
P0链路字段级血缘覆盖关键字段
发布前质量门禁(不通过不发布)
Phase 3:规模化(自动化与成本治理)
订阅机制与变更通知自动化
冷热分层、作业与存储成本治理
全域数据产品化运营(版本、支持、NPS)
14. 模板区(可直接复制粘贴到制度/工单/文档)
14.1 《业务术语词典》条目模板
术语:__________ 英文:__________ 定义:__________ 同义词/别名:__________ 反例(避免误用):__________ Owner:____ Steward:____ 适用范围:____(系统/报表/业务线) 生效版本:v__ 生效日期:____
14.2 《数据元素标准》字段模板
字段名:__________ 中文名:__________ 类型/长度:__________ 允许值:__________ 是否必填:是/否 默认值:____ 业务定义:__________ 来源系统:____ 来源字段:____ 敏感级别:L1/L2/L3/L4 脱敏策略:____ 质量规则:非空/范围/格式/枚举/关联一致 Owner:____ Steward:____ 备注:__________
14.3 《指标口径手册》模板
指标名:__________(中/英) 定义:__________ 粒度:__________(例如:按天/按店/按商品) 维度:__________(时间/地区/渠道…) 公式/SQL:__________ 口径边界:包含/不包含(例如:是否含退款/取消/税费) 数据来源:__________(表/字段/血缘链路) 更新频率与SLA:__________ Owner:____ Steward:____ 版本:v__ 生效日期:____ 变更说明:____
14.4 《数据产品说明》模板
产品名称:__________ 形态:语义层/宽表/API/特征 目标用户:__________ 使用场景:__________ SLA:__________ 数据口径与粒度:__________ 血缘:__________ 质量规则与健康度:__________ 权限申请方式:__________ 版本与变更日志:__________ 支持渠道:__________(群/工单) Owner:____ Steward:____
15. 终极检查清单(P0链路/MDM域上线必过)
15.1 一条P0数据链路必须具备
Owner/Steward明确,支持入口明确(群/工单)
指标口径与公式/SQL固化,版本可追
端到端血缘(至少表级,关键字段字段级)
质量规则包:到达、行数波动、主键重复、关键非空、对账
告警与SLA:延迟、失败;MTTA/MTTR可统计
权限最小化:分级分类、脱敏策略、审计留痕
变更门禁:影响分析、验证、回滚预案、通知订阅者
15.2 一个MDM域上线必须具备
统一ID与编码规则;状态机与有效期
去重匹配与人工复核机制(阈值/权重/证据)
审批流(新增/变更/停用/合并)与审计日志
分发与一致性对账(MDM vs 下游)
质量监控:重复率、必填率、异常变更率、分发失败率