data-com / weekly

For community discussion on the weekly topics, please click here https://github.com/data-com/discussions
65 stars 0 forks source link

Data Weekly [第四期] #4

Closed emptymalei closed 3 years ago

emptymalei commented 5 years ago

Science/Math/Statistics

[@emptymalei 提供] [讨论此话题]

Kalman filter 是工程领域非常常用的一种方法,同时也可以被用在数据科学中。

举一个我们在高速路上开车的例子。关于这辆车的位置,我们有两个信息来源,一个是根据路标,我们可以猜测这辆车大概是在什么位置(这是我们的测量位置),另一个信息是根据我们出发地点和车速,我们可以预测我们的位置(这是我们的预测位置)。然而这两个信息都不是很准确,都有一定的发散。

那么如何把这两个信息结合起来呢?最简单的方法就是取平均。然而我们的测量位置显然是更加准确的,直接平均并不能体现这个优势。 Kalman filter 最简单的版本,就是一个带权重的平均: W_1 测量位置 + W_2 预测位置。 这里我们要求 W_1 要大于 W_2. Kalman filter 的做法就是要求 W_1 / W_2 = 信息不确定程度_2 / 信息不确定程度_1。 这样我们的预测就可以有选择性地结合这两部分信息了。

在数据科学中,Kalman filter 常常用来做预测。例如我们要预测我们产品的近未来的使用情况。对于每天进来的新的信息,我们有两个处理方式,一个是使用所谓的 moving average(只使用最近几天的数据),另一个是我们使用 Kalman filter 来修正预测(可以当作是主观的信息修正)。

  1. 这里有一份非常完整的教程:rlabbe/Kalman-and-Bayesian-Filters-in-Python

Technology

[@xiaohanyu 提供] [讨论此话题]

Redash 是一个开源的数据分析及可视化平台,和 Superset 类似,Redash 同样是基于 Python 实现的,并且有很多特性和 Superset 比较像,诸如:

与 Superset 不同,Redash 的技术架构选型更合理一些,Superset 底层 web 框架依赖于 Flask-AppBuilder,其实现及设计都相当差,并且其用户权限系统设计相当复杂,导致 Superset 本身的权限控制也相当繁冗复杂,扩展性极差。

Redash 的第三方扩展也相对更丰富一些,比如与 Slack 的集成。

最后,UI/UX 层面,Redash 做得也比 Superset 要好的多。不足之处在于数据可视化种类方面,Redash 比 Superset 还差一些。

如果当今选择基于 Python 的数据可视化及分析平台,Redash 是第一选择。

Communication/Visualization

[@emptymalei 提供] [讨论此话题]

Cleveland 和 McGill 在 Science 上发表了一篇文章,通过实验的方法对可视化的不同元素的有效性进行了分析和排名。

排名 可视化元素 注释
1 Aspect judged Position along a common scale 例如同一图中同一坐标系中的比较
2 Position on identical but nonaligned scales 例如我们复制一张散点图,然后修改一些数据点的位置,然后修改图和原图的比较
3 Length
4 Angle, Slope 角度不太接近与 0,pi/2, 或者 pi 的情况
5 Area
6 Volume, Density, Color saturation
7 Color hue

Cleveland, W. S., & McGill, R. (1985)

  1. Cleveland, W. S., & McGill, R. (1985). Graphical Perception and Graphical Methods for Analyzing Scientific Data. Science, 229(4716), 828–833. https://doi.org/10.1126/science.229.4716.828

如果想要分享你的视角或者经历或者建议,可以通过 Discussions 来提交,或者参与讨论,也可以写邮件给我们:hi@getdataweekly.com

来自 GetDataWeekly.com

Analytics