data-com / discussions

http://data-com.github.io
5 stars 0 forks source link

fact, dimension, data cube #16

Open emptymalei opened 5 years ago

emptymalei commented 5 years ago

这周我们讨论一下基本概念,作为非计算机 data scientist 也需要了解的几个术语:fact, dimension, data cube

这两个术语很容易通过一个例子来解释清楚。假定我们有下面这样一个数据表,没一年各类产品的营业收入。

Year Category Revenue
2017 Keyboard 2,500,000
2017 Headset 200,000
2018 Keyboard 3,000,000
2018 Headset 134,000

这里 YearCategorydimensionRevenuefact,有就是说,fact 是我们的数值,dimension 是用来指定 fact 这个数值的维度的(正如名字所指)。从另一个角度来看,我们可以设定一个坐标系,坐标系的两个轴是 Year20172018) 和 CategoryKeyboardHeadset),然后 fact 就是一个标注在这个坐标系里面的数值,也就是 Revenue.

这样就形成了一个 data cube.

实际生产中,我们会有更高维度的 data cube. 比如说,我们要看

  1. keyboards (Category),
  2. in 2018 (Year),
  3. in Cologne (City),
  4. sold offline (Channel),

Revenue 这样我们就有一个 4 维的 data cube,四个 dimension 分别是 Category, Year, CityChannel.