shixiaogang / shixiaogang.github.io

1 stars 0 forks source link

lakehouses/napa/ #25

Open utterances-bot opened 6 months ago

utterances-bot commented 6 months ago

Napa: Powering scalable data warehousing with robust query performance at Google - Xiaogang Shi's Home

Napa [1] 是Google内部由于取代Mesa的下一代数据分析系统。相比于Mesa,Napa提供了更加便捷的配置方式来满足用户在数据时效性、查询延迟和资源开销这三方面不同的选择,通过查询时间戳提供了更好的数据一致性;并且支持SQL定义的视图和索引。

https://shixiaogang.com/lakehouses/napa/

fengzanfeng commented 6 months ago

666

zhongyujiang commented 4 months ago

Napa论文中没有说明这里的查询时间戳是时钟时间还是事件时间。如果为了保证Napa和关系数据库在查询语义上的一致性,那么这里的查询时间戳需要为事件时间。

+1,我理解如果数据源是关系型数据库,那这个 QT 应该是数据源的系统时间,否则维护整库级别的 QT 好像也没有意义。但论文里又说:

If QT(table) = X, all data that was ingested into the table before time X can be queried by the client and the data after time X is not part of the query results.

这个意思好像又是说 QT 是 Napa 表中数据的摄入时间,感觉很奇怪,不知道是不是我理解有误。