neverchanje / notes

1 stars 0 forks source link

vldb 2018 day3 2018-08-28 #12

Closed neverchanje closed 6 years ago

neverchanje commented 6 years ago

今天的收获可能更多来自 alibaba Jingren Zhou 的 talk “Real-Time Data Analytics and Intelligence at Alibaba”PorlarFS

由于 Jingren Zhou 是阿里云计算平台负责人,所以这次带来的分享集中在 Max Compute(前 ODPS)。阿里 MaxCompute 同时结合 batch processing,stream processing 和 graph processing,同时还支持 SQL,上层以 hive SQL 为接口,下层可能是 flink 的 streaming SQL 或者是 batch processing 下的 SQL(类似 hive)。这是一个非常强大的系统。通常分析系统自成一派互不干涉,而 MaxCompute 融合了各种计算方案,用户不需要知道太多底层系统方案就可以开始数据分析工作。

比较重要的一点是 MaxCompute 会根据用户指定的数据分析的总用时(比如这个报表我希望能在6h之内看到)进行 auto tuning,何解呢?阿里在半夜12点往往有大量的数据处理正在进行,如果所有的 job 都用 best effort 的方式调度,那可能出现有些不紧急任务(比如它只限制12h内完成)可能先于紧急任务(希望1h完成)。所以任务调度上需要做出调整,合理安排 job 时间,最好让所有任务都能不紧不慢地完成。这个策略称为 progressive processing,在内部尚未 release,未来可能可以看到 阿里在这方面的 paper。

PolarFS 几乎与论文内描述没有什么不同,唯一区别在于会后我询问了作者之一的 刘振军,关于 PolarFS 在如何进行 data replication。因为论文里讲到 replication 使用 Parallel Raft,而这是一个非常 unreasonable 的做法。因为正常 WAL 的写方案相当于数据连日志一起需要写两份,我们内部甚至争论只有 metadata 进行了 raft 复制。而文件系统作为存储的最底层是不应该写两份数据的。这点 liu 谈到是时间有限,当下也正在优化这部分工作。

中午饭点是一个大餐厅,容纳与会的上百人用餐。因为中国人一起只会说中文,两个老外在我们七个中国人边上很尴尬地做了两分钟就收餐盘离去。同桌的人除了美国学术界华人,国内学术界出身的工业界华人,美国工业界华人之外就是我,国内本科出身工业界华人。所以未来还是希望勤能补拙吧。

每场会之后都会有 social 环节,不是很有意思。晚上我为了倒时差又去睡了3小时,晚上8点时分,我去吧台点了一杯苹果汁。一位加拿大小哥坐在我边上,我们一起聊了四十分钟。

小哥是 waterloo 做图数据库研究的,图数据库是当下非常火爆的 area。譬如判断淘宝订单是否是刷单,淘宝后台可能会分析支付宝转账信息,如果最终交易的钱款从 A 转到 B,最终又转到 A ,那说明 A 一定在刷单。这个 fraud detection 的问题可以在 graph db 里抽象为 circle detection。(所以刷单转账一定要用微信转....

通常 graph db 提供建图,查图的 API。类似于 olap system,graph db 是一个读多于写的场景 。小哥相当于用 java 写了一套图数据库,竞争对手包括 neo4j 和 dgraph 等。图数据库现在来看是一个大的 business。小米未来相信很快也会有相关需求。

小哥非常喜欢阿里(原话是"it’s a crazy company"),因为他被 maxcompute 震撼到了,特别想去拿阿里的 offer。我也不太好意思告诉他阿里的加班文化,当然阿里背后的雄厚技术实力是大家不得不承认的。另外多说一句,小哥的手机是小米a1😃