dantezhao / data-group

77 stars 12 forks source link

ods有的公司说几乎不处理,有的说这一层要做第一次数据清洗,大家怎么看? #7

Open dantezhao opened 6 years ago

dantezhao commented 6 years ago

回答一:我感觉基本的监控要做,然后字段类型,命名统一可以做,ip转地址也可以做。复杂的 不太容易做,数据源的接入不一定都可控。

dantezhao commented 6 years ago

回答二:看数据的规整性吧。有的公司业务方数据很规整。ODS层只用做简单的砍字段即可,有的业务数据不规整比如埋点类的那么不做清洗就肯定不行了。有公司是从业务库直接到ODS,那么需要做备份, 有的是从业务库到汇总库再到ODS。那么汇总库就可以看作是备份了。

dantezhao commented 6 years ago

回答三: : 我们现在ods比较轻 dwd比较重 数据预处理,脱敏等 在dwd做明细处理 : 那你们分几个层啊 : ods dwd dwv dm app,当然也是看需求的 : 哦哦,明白啦,那就是ods数据抽取过来不做任何处理,dwd做全部处理,下面是宽表了

rorovic commented 6 years ago

个人觉得ODS层的数据还是需要清洗并存入到数据仓库比较合适。如果不清洗,是ETL任务的计算资源和计算时间的浪费。除非是有特殊需要,规定要原汁原味的“原始数据”。