shuijian-xu / hive

0 stars 0 forks source link

Data Integration Example #68

Open shuijian-xu opened 5 years ago

shuijian-xu commented 5 years ago

这里面的困难是什么呢?阿里巴巴的业务增长特别快,也很复杂,收购过来了 200 多个 BU,为了让业务跑得快,各业务线以前是分散开的,但是数据却不通。

数据不通带来的问题是,比如你用支付宝去交水电煤、用高德去导航,那时候还是 PC 时代,各个服务都有一个不同的用户账号,但实际上这些账号背后是同一个人,如果数据分散在 BU 里,我们对每个用户的理解都是片面的,如果打通放在一起,对阿里巴巴整体是受益的。 所以数据平台部负责人就安排我做 TCIF,就是以淘宝的消费者为核心,把各个 BU 的数据整合到一起。

这里面的挑战很多:以前都是散落在各个 BU、或者子公司自己的数据系统里面,我们怎么样能把这些数据存在一起?我们就构建了一个庞大的集群,把阿里巴巴内部一百多个小的集群都迁移到这个大集群上,这个叫“登月计划”; 存在一起不够,还要打通,比如你要知道不同的账户是同一个人,这个是需要算法去识别的,我们就做了 id mapping。

这件事情做好了之后是很有价值的,一个例子是 UC:当时 UC 刚刚被收购,浏览器最大也是比较难解决的问题就是冷启动的问题:如果用户第一次用 UC 浏览器,我怎么知道你喜欢什么新闻?这个时候数据的整合和打通就很有用了,我们能够通过他的淘宝记录去推测他可能的内容偏好。