data-com / weekly

For community discussion on the weekly topics, please click here https://github.com/data-com/discussions
65 stars 0 forks source link

Data Weekly [第三期] #3

Closed emptymalei closed 3 years ago

emptymalei commented 5 years ago

Science/Math/Statistics

[@emptymalei 提供] [讨论此话题]

Jeff Leek 和 Roger D. Peng 写过一篇很有趣的论文,题目为 What is the question? 文章中,作者们提出了一个数据分析类型的层级模型,如下图。

image

为什么搞清楚我们手上的数据分析的问题类型很重要呢?如果搞错了分析的类型,很可能会犯严重的错误。比如如果我们手上有个 Inferential 的分析,我们却以为是 causal 分析,那么我们很可能会错误地把相关当成因果。

  1. Leek, J. T., & Peng, R. D. (2015). What is the question? Science, 347(6228), 1314–1315.

Technology

[@xiaohanyu 提供] [讨论此话题]

Apache Superset 是一个开源的数据分析及可视化平台,最早由 Airbnb 主导开发——Superset 的主要贡献者 [Maxime Beauchemin] 同样也是 Airflow 项目的主要贡献者。

Superset 提供如下特性:

Superset 的主要缺点在于权限控制过于复杂,对于大型团队权限管理方面,有着天然的复杂性,但是在开源的类似平台中,Superset 的可视化选项是最多的,无论是内部还是外部系统,都可以在这方面获得很多灵感。

Communication/Visualization

[@emptymalei 提供] [讨论此话题]

Slope Graph 是一种非常简单但是有用的可视化方法。Slope graph 其实是一种 line graph,用来体现 categorial 数据的变化,例如随着时间的变化或者是不同的群组之间的对比,制作 slope graph 需要 categorial + numerical 的数据。 下面是 Cole 给的一个非常精彩的例子。假定我们分别在 2010 年和 2011 年做了同样的调研,得到了几个调研问题每一年的平均得分。我们可以选择使用 bar chart 来可视化:

image

我们虽然可以看得出这两年每个问题的变化,但是我们可能需要很认真地看才可以。作为对比,Cole 也使用 slope graph 来进行可视化:

image

在 slope graph 中,我们可以非常清晰地看到调研的得分的变化,甚至可以一眼看到大多数问题得分都增加了。而且对于我们用橙色突出出来的这个调研,我们也更容易看到。

  1. Cole Knaflic 在 Udacity 的一个 Data Visualization 的课程里面讲了为什么 slope graph 非常有用。
  2. 本文参考了 more on slopegraphs.
  3. 作为扩展,类似的还有 parallel coordinatesbump chartLadder graph

如果想要分享你的视角或者经历或者建议,可以通过 Discussions 来提交,或者参与讨论,也可以写邮件给我们:hi@getdataweekly.com

来自 GetDataWeekly.com

Analytics