dantezhao / data-group

77 stars 12 forks source link

用户标签系统是怎么构建的? #9

Open dantezhao opened 6 years ago

dantezhao commented 6 years ago

现在有几点困惑:

  1. 假设数据有10亿,维度有1k维,还会持续增加。
  2. 比如说用户的标签,可能有几千维,那么底层该怎么存储?
  3. 假设用 Hive 的宽表来存,那么会有一个宽表要等所有的小表都算完才能拼起来的问题,而且还有频繁变更字段的问题
  4. 如果在 Hive 中用竖表来存,查询有比较麻烦。
Nieson commented 6 years ago

同样遇到这个问题,期待有大神来点拨一下,介绍一下是否有更好的解决方案。

shawnhoo007 commented 6 years ago

构建标签系统同问,用户的标签上则几十个,多则上百个,每个或者每一批算法或者统计方式又不一致,你们都是怎么构建的,一个个标签去写方法或者统计然后提取出对应的标签吗,有没有其他更好的办法