ddxygq / ddxygq.github.io

柯广的博客
http://www.ikeguang.com/
0 stars 0 forks source link

基于hive关联hbase用户表的创建 | 柯广的博客 #121

Open ddxygq opened 4 years ago

ddxygq commented 4 years ago

http://www.ikeguang.com/2018/09/26/hive-hbase-user-table/

我司有一个需求,对于存在于hive中的用户行为日志数据,需要做一个用户表,用户数截至目前大概是1.2亿。常规的想法是:建一个用户表,定时把前一天的新用户加入用户表中,判断规则是用户guid存在于用户表中则不管,否则加入用户表。由于有5张表,一共大概3亿条数据,第一次做,这样判断好像太暴力了:1insert into table user_table (select guid from data w