neverchanje / notes

1 stars 0 forks source link

parquet #8

Open neverchanje opened 6 years ago

neverchanje commented 6 years ago

parquet read performance

cloudera parquet benchmark: http://blog.cloudera.com/blog/2016/04/benchmarking-apache-parquet-the-allstate-experience/

这里的测试集是: 3 columns, 82.8 million rows, 50 spark executors 103 columns with 694 million rows, 500 spark executors

Dremel read performance

image dremel 使用 3000 节点,MR 使用 3000 workers,同是 850 亿条数据,非列存使用 85TB,列存只使用 0.5 TB,使用列存使查询时间减少一个数量级,使用 dremel 又能减少一个数量级