JC-Shi / Learned-Index-Benefits

13 stars 5 forks source link

给的开源的特征化后的数据好像有问题 #5

Closed m729448362 closed 12 months ago

m729448362 commented 12 months ago

operation information,database statistics,index information的顺序不一样,顺便那一条举例[0, 1, 2, 11.198885727831211, 0.0, 0.14305466, 0, 0, 0, 1, 0, 2.5649493574615367, 7.829232537543592],1-3是索引类别和顺序,5-6是表统计信息,7-11是算子类型,12是基数,13是行。不知道4是什么,在数据预处理时候又把行数丢掉(data_point[j][:-1])。

JC-Shi commented 12 months ago

你好,1-3是索引信息,4-6表统计信息(log(rows), distinct ratio, null ratio),7-11是算子分类,12是预计基数,13是真实基数。之所以数据预处理的时候把最后的一个数去掉是因为我们只用了预计的基数,真实基数只是为其他对比实验准备。

m729448362 commented 12 months ago

你好,1-3是索引信息,4-6表统计信息(log(rows), distinct ratio, null ratio),7-11是算子分类,12是预计基数,13是真实基数。之所以数据预处理的时候把最后的一个数去掉是因为我们只用了预计的基数,真实基数只是为其他对比实验准备。

好的,了解,谢谢!