dantezhao / data-group

77 stars 12 forks source link

[DISCUSS-3] 数据仓库中数据管理的讨论 #26

Open wxs85 opened 6 years ago

wxs85 commented 6 years ago
  1. 如何确定数据清洗后是否与源数据保持一致
  2. 如何追溯数据仓库中的表的血缘关系
  3. 如何管理数据仓库中的元数据
qinglww commented 6 years ago

1、清洗任务事中做dqc校验,不通过则任务状态为失败,防止后续加工任务也数据不一致; 2、写个python脚本解析sql,或者解析日志,来完成表级别的血缘关系网;字段级别的解析比较难实现; 3、元数据管理工具啊,市面上好多的,没有满意的自己设计

dengwanc commented 5 years ago

@qinglww 什么是 dqc , data quaility check ?