vldb 2018 day3 2018-08-28

今天的收获可能更多来自 alibaba Jingren Zhou 的 talk “Real-Time Data Analytics and Intelligence at Alibaba” 和 PorlarFS。

由于 Jingren Zhou 是阿里云计算平台负责人，所以这次带来的分享集中在 Max Compute（前 ODPS）。阿里 MaxCompute 同时结合 batch processing，stream processing 和 graph processing，同时还支持 SQL，上层以 hive SQL 为接口，下层可能是 flink 的 streaming SQL 或者是 batch processing 下的 SQL（类似 hive）。这是一个非常强大的系统。通常分析系统自成一派互不干涉，而 MaxCompute 融合了各种计算方案，用户不需要知道太多底层系统方案就可以开始数据分析工作。

比较重要的一点是 MaxCompute 会根据用户指定的数据分析的总用时（比如这个报表我希望能在6h之内看到）进行 auto tuning，何解呢？阿里在半夜12点往往有大量的数据处理正在进行，如果所有的 job 都用 best effort 的方式调度，那可能出现有些不紧急任务（比如它只限制12h内完成）可能先于紧急任务（希望1h完成）。所以任务调度上需要做出调整，合理安排 job 时间，最好让所有任务都能不紧不慢地完成。这个策略称为 progressive processing，在内部尚未 release，未来可能可以看到阿里在这方面的 paper。

PolarFS 几乎与论文内描述没有什么不同，唯一区别在于会后我询问了作者之一的刘振军，关于 PolarFS 在如何进行 data replication。因为论文里讲到 replication 使用 Parallel Raft，而这是一个非常 unreasonable 的做法。因为正常 WAL 的写方案相当于数据连日志一起需要写两份，我们内部甚至争论只有 metadata 进行了 raft 复制。而文件系统作为存储的最底层是不应该写两份数据的。这点 liu 谈到是时间有限，当下也正在优化这部分工作。

中午饭点是一个大餐厅，容纳与会的上百人用餐。因为中国人一起只会说中文，两个老外在我们七个中国人边上很尴尬地做了两分钟就收餐盘离去。同桌的人除了美国学术界华人，国内学术界出身的工业界华人，美国工业界华人之外就是我，国内本科出身工业界华人。所以未来还是希望勤能补拙吧。

每场会之后都会有 social 环节，不是很有意思。晚上我为了倒时差又去睡了3小时，晚上8点时分，我去吧台点了一杯苹果汁。一位加拿大小哥坐在我边上，我们一起聊了四十分钟。

小哥是 waterloo 做图数据库研究的，图数据库是当下非常火爆的 area。譬如判断淘宝订单是否是刷单，淘宝后台可能会分析支付宝转账信息，如果最终交易的钱款从 A 转到 B，最终又转到 A ，那说明 A 一定在刷单。这个 fraud detection 的问题可以在 graph db 里抽象为 circle detection。（所以刷单转账一定要用微信转....

通常 graph db 提供建图，查图的 API。类似于 olap system，graph db 是一个读多于写的场景。小哥相当于用 java 写了一套图数据库，竞争对手包括 neo4j 和 dgraph 等。图数据库现在来看是一个大的 business。小米未来相信很快也会有相关需求。

小哥非常喜欢阿里（原话是"it’s a crazy company"），因为他被 maxcompute 震撼到了，特别想去拿阿里的 offer。我也不太好意思告诉他阿里的加班文化，当然阿里背后的雄厚技术实力是大家不得不承认的。另外多说一句，小哥的手机是小米a1😃

neverchanje / notes

vldb 2018 day3 2018-08-28 #12