data-com / weekly

For community discussion on the weekly topics, please click here https://github.com/data-com/discussions
65 stars 0 forks source link

Data Weekly [第八期] #9

Closed emptymalei closed 3 years ago

emptymalei commented 5 years ago

欢迎大家投稿

Science/Math/Statistics

[@necogy 提供] [讨论此话题]

ensemble method 在当前机器学习领域备受欢迎的理由:灵活性(bias 相对较低)和对样本变化的相对不敏感(variance 相对较低)。

random forest 属于 bagging,所有 predictor 的训练都是平行的。而 boosting 都是 sequential(串行)的, adaboost 是 boosting 的其中一种。

adaboost 的训练 pipeline:

  1. 选择一个 base model(比如说 decision tree classifier)来训练数据,然后使用得到的参数来预测 training set。

  2. 初始设置:每一个 instance 的权重都是 1/m(如果假设一共有 m 个数据)。 predictor 的相对错误比例(r)预测值不等于实际值的个数(误判)之和 / 现在的 instance 权重之和 更新 predictor 的权重 = *learning rate log(1-r/r)** 从上式可以看出,如果 r(错误率)增加,那么权重会相应减小,反之亦反。

  3. 被误判的数据个例的相对权重会被提高,以便于下一次训练时着重纠正这些部分。

  4. 下一轮的训练中使用更新过的权重,然后回到第一步,重返往复。

  5. 当 predictors 的数量达到设定的预期值,或者找到了一个完美 predictor,那么整个过程就会停止。 所谓 boosting 是指的每一轮抬高(boost)被误判的 data instance 的权重(weights)。

你可能会想到梯度下降(gradient descent)也是一步步迭代。梯度下降是一直微调单一的 predictor,而 adaboost 会在迭代时加入 predictors,从而使得其更加有效。

key points: 权重的更新是 predictor 和 instance 双方的。前者错误时,权重被降低。后者错误时,权重被升高。

Technology

[@emptymalei 提供] [讨论此话题]

Andreas Kretz 是 Bosch Rexroth 的 Big Data Platform Team Lead,他最近写了一本书叫做 The Data Engineering Cookbook (链接:andkret/CookbookPDF).

书中包含了作者的 podcast 的链接,通常是一些采访和案例的分析。这本书主要是用来获取一个大概的概念的,有些内容作者并没有填坑。

一点评论:

不过作者对于 Data Scientists 和 Data Engineer 的工作内容的分类,很可能是作者作为 solution expert 从部门建设的角度看。比如作者提到的 data engineer 的一些工作内容,其实也可能是 Data Scientists 应该掌握的内容。 原因很简单:现在的产业化的工具使得很多步骤也来越简单了,Data Scientists 很可能会朝两个极端发展,

  1. domain knowledge driven 的 data scientists,也就是更加接近 data analyst,但是使用的模型更加精准和复杂,更多的跟决策相关;
  2. engineering driven 的 data scientists,可能包含了 machine learning engineers,更加偏向全栈的 data scientists,更多的是跟产品相关。

所以作为 data scientists 也可以休闲时看看这本书,至少我看了对整个框架有了一个大概的了解。

Communication/Visualization

[@emptymalei 提供] [讨论此话题]

澎湃新闻有一期很有趣的文章叫做:数说高温②|65年的数据告诉你:新十大火炉是如何炼成的?,文章中有一系列的对于历史气温的数据可视化,作者是 Zhaoying Qin.

image

对我来说,这个可视化最有趣的一点在于其中地图上一组图所使用的类似于单层 sunburst chart 的图,不同于 sunburst 的是,这个的半径方向只有一层,而且维度是是代表温度差值的高低,所以是把 bar chart 做成一个圆周。这样做有几个有趣的后果:

  1. 数据的开始几年和最终几年的对照更显著了,但是同时也带来了不容易读的问题;
  2. 每个图都比喻成了一个太阳,就像讲故事一样。

当然其他的图,比如 rug plot 的表现力也是很厉害的。可视化的故事也是从年开始讲,然后进入到月份的细节,层次感也很棒。


如果想要分享你的视角或者经历或者建议,可以通过 Discussions 来提交,或者参与讨论,也可以写邮件给我们:hi@getdataweekly.com

来自 GetDataWeekly.com