selfteaching-learning-notes / selfteaching-learning-notes.github.io

自学营学员学习笔记
https://selfteaching-learning-notes.github.io
15 stars 83 forks source link

1901020015-数据营-作业攻略 #293

Open lihaotian007 opened 5 years ago

lihaotian007 commented 5 years ago

写在前面的话

先说一下目前的学习感受好了。一方面,笔者是第一次接触解锁式的学习方式(笔者在学习 14 天的课程的时候其实还不是解锁式的),感觉这种方式更像是自学,教练给出的作业是一个方向,能走到多深多远其实看你自己。另一方面,随着时间线的拉长,以完成作业为目标已经不是那么重要反而对于学习者本身的耐心也是一个挑战(但是教练建议3-5天笔者认为很合理,如果时间线太长容易失去动力)

整个学习下来,笔者有一点觉得多少有点难受。就是在学习内容比较多的时候总会无谓的担心是不是我学多啦,会不会走偏啦,后面万一没有用到怎么办。其实这也是笔者决定写这个内容的初衷之一,希望你对每个模块有一个整体的了解,从而可以更好地帮助你完成作业并规划自己的学习进度

内容本身是笔者将自己完成作业过程中的内容和思考做了进一步提炼总结而来,旨在希望可以帮你更好的完成作业或作为作业完成过程中有效的参考。同时本文也会随着笔者的学习进度做不断扩充。如果你看到有任何的问题可以在下方回复,笔者会尽力解答。

但是如果你在学习的过程中需要感受氛围及感受并不孤单,本文也许并不无法达到期望的效果。可以出门左转,看看大家的每日打卡,可能效果更好

本文主要包含内容如下:

作业完成的基本思路

lihaotian007 commented 5 years ago

第一阶段作业攻略 (Exercise01 - Exercise05)

第一阶段你会涉及到的知识

Exercise01

Exercise01 的作业没有什么多说的,都是基础统计学知识和软件的安装及配置,但是由于很多东西可能没有接触过,所以耗时不会少,请优先有一个心里准备。

我理解 Exercise01 与其说是一次作业,不如说是一个方法指导。教练会在作业中说清楚,你需要总结那些方面的内容,这其实也是在手把手的交学习方法。并且笔者认为这个过程可以自己多做些探索,想成一定的方法论后,后续的统计学内容大部分可以原样总结

另外,关于 Tableau 有一个试用时间是14天,一般来说你实际需要使用的时间绝对远超试用时间。市面上有很多 “破解版” ,但笔者建议还是去某宝买个激活码比较好,反正相比官方价格完全就是白菜价

Exercise02

Exercise02 的作业已经开始集中在 Tableau 上面了,包括 Tableau 的相关概念和基础图表。其实和 Exercise01 一样,与其说是一次作业,不如说是一个方法指导。教练同样会在作业中说清楚,你需要总结图表那些方面的内容,这其实也是在手把手的交学习方法。

这个过程中最大的建议就是,一定要去看英文的内容。笔者是将 Wikipedia 的内容一路看过来了,表示里面会将图表的局限以及图表的变形说的很细致,虽然有些变形可能 Tableau 本身不支持,但是对自己也是一种扩充。

同时,笔者认为有几个点一定要做详细的理解和思考:

当然,如果你和笔者一样英文不是很好的话可能会有点不顺畅,不过没有关系,词典在手天下我有。

最后完成的故事不一定要很花哨,但是一定要把内容讲清楚。笔者把自己故事的起始页放出来,做一个 "生动" 的总结好了

图片

Exercise03

如果你已经到了 Exercise03 那么恭喜你,在消耗的时间层面第一阶段你实际上已经走完了 2/3 ,所以请对前两次作业保持耐心

Exercise03 主要是针对地图的内容,如果你和笔者一样在 Exercise02 中是将 Wikipedia 的内容一路看过来的。那么再次恭喜你,Exercise03 的一部分作业你已经提前完成了,直接进入操作层面即可

关于 Exercise03 的作业,有一点需要着重说明一下:

作业中会有一句话: 在工作表中绘制背景地图:北京机场线

这句话的意思是: 以作业给到的图片 background 为背景而不使用实际地图,在这个基础上完成后续的内容

在这里放置一个 Exercise03 的成品,方便你参考:

图片

Exercise04

Exercise04 已经进入了高级图表的知识。

在知识层面有一点需要特别提醒:一定要参照 Exercise02 的方法论优先学习一下 这些图表内容,虽然作业中并没有说明,但从对自己负责的角度还是建议学习一下的。

不过在笔者学习这部分的内容过程中发现了一点,就是当你去了解它的使用场景和局限的时候需要了解更多的统计学知识否则会很吃力。笔者是进一步补了 ”概率密度函数“、”期望“、”正态分布“ 的相关概念后才回头去学这个内容的(补充概率知识的时候极力建议使用英文,因为这样在你反过头看图表知识的时候很多单词就轻车熟路了)

在操作层面上,其实除了作业中提到的高级图表之外,Tableau 官方教材里面还有一些高级图表类型,笔者自己都学习了一遍,感觉还是很有用的。链接放这里,可以根据自己的需求和实际情况来看:官方高级图表内容

在 Exercise04 的作业中,有一个 ”漏斗图“ ,笔者在制作的过程中严重感觉官方的制作不能再丑,于是找到了这个 What The Funnel? 着实美观很多,同时此文还可以帮你发现 Tableau 中 "路径" 的妙用,供你参考

Exercise05

Exercise05 的作业一定是非常让你激动的,因为里面有一个标题是这样的:Tableau 集成 Python 调⽤用机器学习算法模型

不知道你看到这个的时候是不是瞬感牛逼,然后压力山大。其实完全没有必要,第一阶段的主要任务在于 Tableau 的学习,所以机器学习算法的东西其实教练已经帮你解决了。不过在笔者阅读完 “Your First Machine Learning Project in Python Step-By-Step” 后(作业给到的参考连接),严重建议一定要读完它。

好的,以上心里建设完毕。其实 Exercise05 的作业过程中最需要注意的是,Tabpy 的安装,反正笔者是安装花三天,作业完成 30分钟。

在整个作业中教练已经给到了一个错误的解决方案(AttributeError: module 'tornado.web' has no attribute) ,但是笔者遇到的却是另外一个 DLL load failed 。这里先直接告诉你解决方案,只有两步(如果想了解具体的思考过程可以在笔者 每日打卡 中翻一下):

最后,给一个成品图,供你参考:

图片