Closed emptymalei closed 3 years ago
在 SETI Research Center 的 Breakthrough Listening Lab,Yunfan Zhang 的工作是使用 ML 来对来自宇宙的信号进行处理,从而辨别已知和未知的信号。来自宇宙的无线电信号可以通过时频谱分析处理成三维的数据:在某个时刻,某个频率的幅值。这样以来这些信号就如同图像一般。对于一些已知的信号,可以使用训练过的 ResNet 来进行信号识别。然而不是所有的信号都是已知的,这时候需要 unsupervised learning。Yunfan Zhang 用聚类分析方法,例如 GMM 和 DBSCAN 来对信号归类或者找到新的类型的信号。
[@emptymalei 提供]
当 pipeline 条数很多的时候,这些 pipeline 之间常常是相互依赖的。比如我们有一条 pipeline 是用来清洗基因数据的,还有一条是把清洗的数据进行 feature engineering 的,那么第二条运行的条件是第一条成功完成。最简单的想法是,我们用系统的 crontab 了让第一条 1 AM 运行,第二条 2 AM 运行,这叫做 time-based scheduling。可以想象如果我们有 1000 条 pipeline,那么这个相互依赖就会变得非常复杂,通过 time-based scheduling 来安排显然不现实。这时候需要一个平台来处理这些依赖,检测是否成功,最好还要有个预警系统。这类工具很多,比如 luigi 和 airflow。
数据可视化,除了做 Exploratory Data Analysis 之外,另一个最重要的功能就是讲故事了。当有了一些有趣的数据,找到了完美的可视化的方法,可是这个故事如何讲呢?写一篇文章?太枯燥。做一个视频?太麻烦。做成互动的应用?如果我也希望能够让这些互动按照我的故事时间线展示出来,最好还可以加上我的声音讲述的故事呢? 在一次通勤听 podcast 的时候,我意外听到了这个叫做 Flourish 的产品。这个产品除了常规的数据可视化,确实是一个可以讲出好故事的数据产品。编辑的界面操作类似于做幻灯片,但是这些可视化是可以互动的,而且可以添加合适的录音作为讲述者,这个被 Flourish 叫做 talkie。
如果想要分享你的视角或者经历或者建议,可以通过 Discussions 来提交,或者参与讨论,也可以写邮件给我们:hi@getdataweekly.com
来自 GetDataWeekly.com
Science/Math/Statistics
在 SETI Research Center 的 Breakthrough Listening Lab,Yunfan Zhang 的工作是使用 ML 来对来自宇宙的信号进行处理,从而辨别已知和未知的信号。来自宇宙的无线电信号可以通过时频谱分析处理成三维的数据:在某个时刻,某个频率的幅值。这样以来这些信号就如同图像一般。对于一些已知的信号,可以使用训练过的 ResNet 来进行信号识别。然而不是所有的信号都是已知的,这时候需要 unsupervised learning。Yunfan Zhang 用聚类分析方法,例如 GMM 和 DBSCAN 来对信号归类或者找到新的类型的信号。
[@emptymalei 提供]
Technology
当 pipeline 条数很多的时候,这些 pipeline 之间常常是相互依赖的。比如我们有一条 pipeline 是用来清洗基因数据的,还有一条是把清洗的数据进行 feature engineering 的,那么第二条运行的条件是第一条成功完成。最简单的想法是,我们用系统的 crontab 了让第一条 1 AM 运行,第二条 2 AM 运行,这叫做 time-based scheduling。可以想象如果我们有 1000 条 pipeline,那么这个相互依赖就会变得非常复杂,通过 time-based scheduling 来安排显然不现实。这时候需要一个平台来处理这些依赖,检测是否成功,最好还要有个预警系统。这类工具很多,比如 luigi 和 airflow。
[@emptymalei 提供]
Communication/Visualization
数据可视化,除了做 Exploratory Data Analysis 之外,另一个最重要的功能就是讲故事了。当有了一些有趣的数据,找到了完美的可视化的方法,可是这个故事如何讲呢?写一篇文章?太枯燥。做一个视频?太麻烦。做成互动的应用?如果我也希望能够让这些互动按照我的故事时间线展示出来,最好还可以加上我的声音讲述的故事呢? 在一次通勤听 podcast 的时候,我意外听到了这个叫做 Flourish 的产品。这个产品除了常规的数据可视化,确实是一个可以讲出好故事的数据产品。编辑的界面操作类似于做幻灯片,但是这些可视化是可以互动的,而且可以添加合适的录音作为讲述者,这个被 Flourish 叫做 talkie。
[@emptymalei 提供]
如果想要分享你的视角或者经历或者建议,可以通过 Discussions 来提交,或者参与讨论,也可以写邮件给我们:hi@getdataweekly.com
来自 GetDataWeekly.com