ddxygq / ddxygq.github.io

柯广的博客
http://www.ikeguang.com/
0 stars 0 forks source link

基于历史数据的用户访问次数,每天新老用户,日活,周活,月活的hive计算 | 柯广的博客 #130

Open ddxygq opened 4 years ago

ddxygq commented 4 years ago

http://www.ikeguang.com/2018/08/03/statistic-hive-daily-week-month/

最近有一个需求,统计每天的新老用户,日活,周活,月活。我们每天的增量数据会加入到hive历史数据表中,包含用户访问网站的一些信息,字段有很多,包括用户唯一标识guid。当然了日活,周活,月活就是一个count(distinct(guid))语句,非常常用的sql。 但是这里的问题是: A:每天的新老用户应该怎么统计呢?B:这还不简单,判断用户guid是否存在与历史库guid中嘛?A:历史数据几十