Open emptymalei opened 5 years ago
这周我们讨论一下基本概念,作为非计算机 data scientist 也需要了解的几个术语:fact, dimension, data cube。
这两个术语很容易通过一个例子来解释清楚。假定我们有下面这样一个数据表,没一年各类产品的营业收入。
Year
Category
这里 Year 和 Category 是 dimension,Revenue 是 fact,有就是说,fact 是我们的数值,dimension 是用来指定 fact 这个数值的维度的(正如名字所指)。从另一个角度来看,我们可以设定一个坐标系,坐标系的两个轴是 Year (2017,2018) 和 Category (Keyboard,Headset),然后 fact 就是一个标注在这个坐标系里面的数值,也就是 Revenue.
Revenue
2017
2018
Keyboard
Headset
这样就形成了一个 data cube.
实际生产中,我们会有更高维度的 data cube. 比如说,我们要看
City
Channel
的 Revenue 这样我们就有一个 4 维的 data cube,四个 dimension 分别是 Category, Year, City 和 Channel.
这周我们讨论一下基本概念,作为非计算机 data scientist 也需要了解的几个术语:fact, dimension, data cube。
这两个术语很容易通过一个例子来解释清楚。假定我们有下面这样一个数据表,没一年各类产品的营业收入。
Year
Category
这里
Year
和Category
是 dimension,Revenue
是 fact,有就是说,fact 是我们的数值,dimension 是用来指定 fact 这个数值的维度的(正如名字所指)。从另一个角度来看,我们可以设定一个坐标系,坐标系的两个轴是Year
(2017
,2018
) 和Category
(Keyboard
,Headset
),然后 fact 就是一个标注在这个坐标系里面的数值,也就是Revenue
.这样就形成了一个 data cube.
实际生产中,我们会有更高维度的 data cube. 比如说,我们要看
Category
),Year
),City
),Channel
),的
Revenue
这样我们就有一个 4 维的 data cube,四个 dimension 分别是Category
,Year
,City
和Channel
.