data-com / weekly

For community discussion on the weekly topics, please click here https://github.com/data-com/discussions
65 stars 0 forks source link

Data Weekly [第二期] #2

Closed emptymalei closed 3 years ago

emptymalei commented 5 years ago

Science/Math/Statistics

SETI Research Center 的 Breakthrough Listening LabYunfan Zhang 的工作是使用 ML 来对来自宇宙的信号进行处理,从而辨别已知和未知的信号。来自宇宙的无线电信号可以通过时频谱分析处理成三维的数据:在某个时刻,某个频率的幅值。这样以来这些信号就如同图像一般。对于一些已知的信号,可以使用训练过的 ResNet 来进行信号识别。然而不是所有的信号都是已知的,这时候需要 unsupervised learning。Yunfan Zhang 用聚类分析方法,例如 GMM 和 DBSCAN 来对信号归类或者找到新的类型的信号。

  1. 我们联系到 Yunfan Zhan,他提供了一个他的讲座的视频:Artificial Intelligence in Search for Extra-Terrestrial Intelligence
  2. 时频谱又不同于图像,比如时频谱的信息密度要远远低于我们日常看到的图像。
  3. ResNet: Residual Neural Network,即我们通过跳过几层网络直连后面的层次的网络的方式来解决普通的神经网络不能学习 identity function ( f(x) = x ) 以及网络越深越差的问题。相关科普文章:Residual blocks — Building blocks of ResNet
  4. 作为 K-Means 的竞争对手,DBSCAN 和 GMM 都很有名。如果对于 GMM 还不了解,可以阅读这篇文章:In Depth: Gaussian Mixture Models;DBSCAN 可以看这里:Density-Based Clustering

[@emptymalei 提供]

Technology

当 pipeline 条数很多的时候,这些 pipeline 之间常常是相互依赖的。比如我们有一条 pipeline 是用来清洗基因数据的,还有一条是把清洗的数据进行 feature engineering 的,那么第二条运行的条件是第一条成功完成。最简单的想法是,我们用系统的 crontab 了让第一条 1 AM 运行,第二条 2 AM 运行,这叫做 time-based scheduling。可以想象如果我们有 1000 条 pipeline,那么这个相互依赖就会变得非常复杂,通过 time-based scheduling 来安排显然不现实。这时候需要一个平台来处理这些依赖,检测是否成功,最好还要有个预警系统。这类工具很多,比如 luigiairflow

  1. 一篇简单的关于 time-based scheduling 不好的文章 Managing Containerized Data Pipeline Dependencies With Luigi
  2. Luigi 和 Airflow 是两个不同的设计理念,而且 airflow 的并行的支持更好,而 luigi 更轻便。参考这篇文章:Data pipelines, Luigi, Airflow: everything you need to know

[@emptymalei 提供]

Communication/Visualization

数据可视化,除了做 Exploratory Data Analysis 之外,另一个最重要的功能就是讲故事了。当有了一些有趣的数据,找到了完美的可视化的方法,可是这个故事如何讲呢?写一篇文章?太枯燥。做一个视频?太麻烦。做成互动的应用?如果我也希望能够让这些互动按照我的故事时间线展示出来,最好还可以加上我的声音讲述的故事呢? 在一次通勤听 podcast 的时候,我意外听到了这个叫做 Flourish 的产品。这个产品除了常规的数据可视化,确实是一个可以讲出好故事的数据产品。编辑的界面操作类似于做幻灯片,但是这些可视化是可以互动的,而且可以添加合适的录音作为讲述者,这个被 Flourish 叫做 talkie。

[@emptymalei 提供]


如果想要分享你的视角或者经历或者建议,可以通过 Discussions 来提交,或者参与讨论,也可以写邮件给我们:hi@getdataweekly.com

来自 GetDataWeekly.com

Analytics