data-com / weekly

For community discussion on the weekly topics, please click here https://github.com/data-com/discussions
65 stars 0 forks source link

Data Weekly [第六期] #7

Closed emptymalei closed 3 years ago

emptymalei commented 5 years ago

Science/Math/Statistics

[@necogy 提供] [讨论此话题]

Random forest 简介

  1. Will Koehrsen 有一个完整的 Random Forest 的从概念到代码实现(scikit-learn)的教程:Jupyter Notebook文章

Technology

[@emptymalei 提供] [讨论此话题]

我们采访到了 George Pachitariu (LinkedIn),他是 trivago 的 Data Engineer. 他在 trivago 有四年的 data engineer 的工作经验。

George 提到了在 2016 年,也就是他在 trivago 工作一年多的时候,写过一个很有趣的文章:Lessons I learned this year (在 Facebook 上的文章) 其中有一点,我有同感,就是 "Keeping trust is hard",或者说维系别人对你的系统的信任,是需要付出非常多的努力的。比如你有一个系统来为 BI 提供每天更新的数据,如果这个系统经常出问题,那么大家就开始对这个系统变得不信任了,为了维持信任,可能是晚上加班及时修好 bug, 或者早上早起修 bug.

George 重点提到了 Apache foundation,这个社区维护着很多工具集,例如 Hadoop projects: Hive, Spark, Kafka, 等等。通过阅读这些 Pull Requests 和评论,我们可以学习到很多东西,换句话说,整个这个 foundation 就像一个俱乐部一样,我们可以跟这些在这个领域摸爬滚打十几年的大佬学习。

  1. trivago 是一家位于德国的提供酒店搜索服务的上市公司。

Communication/Visualization

[@emptymalei 提供] [讨论此话题]

Data visualization society 是最近才成立的一个跟数据可视化有关的社区。

在数据可视化领域,一般的社区都是跟某个工具有关的,例如跟 d3.js 有关的,或者跟 Tableau 有关的,这样使得整个数据可视化领域被不同的社区分割,所以并不是特别理想的状态。Data visualization society 就是要解决这样一个多方割据的问题,把整个领域的人连接起来。

加入社区目前是免费的,除了邮件组,还有一个 Slack 社区。Slack 社区很活跃,是一个互助和分享氛围浓厚的社区。


如果想要分享你的视角或者经历或者建议,可以通过 Discussions 来提交,或者参与讨论,也可以写邮件给我们:hi@getdataweekly.com

来自 GetDataWeekly.com

Analytics