Open lihaotian007 opened 5 years ago
统计学概念
- 笔者认为统计学概念是理解数据的有效方式,作业中有推荐的视频可以跟着去看,Wikipedia 上的相关内容也是一定要去了解的,虽然这些都很基础但不代表简单也不代表不重要
- 如果富有余力,笔者推荐两本书,均是多年前笔者自己看过的,深感重要。一个是《深入浅出统计学》这个告诉你统计学可以做什么,另一个是《赤裸裸的统计学》这个告诉你统计学有哪些坑,有哪些局限。当然这两本书笔者对比了一下作业,因为这两本书均有自己的 “故事线” 所以并不适合配合作业来看,可以看自己时间独立安排
图表制作
- 笔者认为图表是让
不那么理解数据的人
理解数据的一种表达方式。因此作为图表的制作者,最重要的是保障无偏差传递。由此图表的局限性是一定要明确的。Wikipedia 上面此 误导性图表 是一定要读的- 关于图表的相关内容,笔者过程中发现了这个网站 The Data Duo,可以在做作业的时候多去瞄一瞄。说不定会有惊喜
Tableau 操作
- Tableau 的知识(包括概念和操作)作业中其实已经涉及到了很多,但是笔者发现关于
计算字段
的内容是作业中从来没有提到的。富有余力的话建议自己去学一学。如果你从来没有接触过 Excel 的公式,建议基础的计算字段内容一定要去看一下,如果你已经接触过,那么 Tableau 的详细级别表达式
你不应该错过(在 Exercise02 的时候,笔者没有认真看作业,以为是要做一个分析,误打误撞把详细级别表达式
看完了,后来和公司 BI 小伙伴交流的时候才深晦其重要性)
机器学习相关内容
- 关于机器学习的内容笔者之前也只是略有了解,作业中的链接着实让笔者明白很多。所以即便作业可以轻松的完成,里面的链接请一定读完
Exercise01 的作业没有什么多说的,都是基础统计学知识和软件的安装及配置,但是由于很多东西可能没有接触过,所以耗时不会少,请优先有一个心里准备。
我理解 Exercise01 与其说是一次作业,不如说是一个方法指导。教练会在作业中说清楚,你需要总结那些方面的内容,这其实也是在手把手的交学习方法。并且笔者认为这个过程可以自己多做些探索,想成一定的方法论后,后续的统计学内容大部分可以原样总结
另外,关于 Tableau 有一个试用时间是14天,一般来说你实际需要使用的时间绝对远超试用时间。市面上有很多 “破解版” ,但笔者建议还是去某宝买个激活码比较好,反正相比官方价格完全就是白菜价
Exercise02 的作业已经开始集中在 Tableau 上面了,包括 Tableau 的相关概念和基础图表。其实和 Exercise01 一样,与其说是一次作业,不如说是一个方法指导。教练同样会在作业中说清楚,你需要总结图表那些方面的内容,这其实也是在手把手的交学习方法。
这个过程中最大的建议就是,一定要去看英文的内容。笔者是将 Wikipedia 的内容一路看过来了,表示里面会将图表的局限以及图表的变形说的很细致,虽然有些变形可能 Tableau 本身不支持,但是对自己也是一种扩充。
同时,笔者认为有几个点一定要做详细的理解和思考:
当然,如果你和笔者一样英文不是很好的话可能会有点不顺畅,不过没有关系,词典在手天下我有。
最后完成的故事不一定要很花哨,但是一定要把内容讲清楚。笔者把自己故事的起始页放出来,做一个 "生动" 的总结好了
如果你已经到了 Exercise03 那么恭喜你,在消耗的时间层面第一阶段你实际上已经走完了 2/3 ,所以请对前两次作业保持耐心
Exercise03 主要是针对地图的内容,如果你和笔者一样在 Exercise02 中是将 Wikipedia 的内容一路看过来的。那么再次恭喜你,Exercise03 的一部分作业你已经提前完成了,直接进入操作层面即可
关于 Exercise03 的作业,有一点需要着重说明一下:
作业中会有一句话: 在工作表中绘制背景地图:北京机场线
这句话的意思是: 以作业给到的图片 background 为背景而不使用实际地图,在这个基础上完成后续的内容
在这里放置一个 Exercise03 的成品,方便你参考:
Exercise04 已经进入了高级图表的知识。
在知识层面有一点需要特别提醒:一定要参照 Exercise02 的方法论优先学习一下 这些图表内容,虽然作业中并没有说明,但从对自己负责的角度还是建议学习一下的。
不过在笔者学习这部分的内容过程中发现了一点,就是当你去了解它的使用场景和局限的时候需要了解更多的统计学知识否则会很吃力。笔者是进一步补了 ”概率密度函数“、”期望“、”正态分布“ 的相关概念后才回头去学这个内容的(补充概率知识的时候极力建议使用英文,因为这样在你反过头看图表知识的时候很多单词就轻车熟路了)
在操作层面上,其实除了作业中提到的高级图表之外,Tableau 官方教材里面还有一些高级图表类型,笔者自己都学习了一遍,感觉还是很有用的。链接放这里,可以根据自己的需求和实际情况来看:官方高级图表内容
在 Exercise04 的作业中,有一个 ”漏斗图“ ,笔者在制作的过程中严重感觉官方的制作不能再丑,于是找到了这个 What The Funnel? 着实美观很多,同时此文还可以帮你发现 Tableau 中 "路径" 的妙用,供你参考
Exercise05 的作业一定是非常让你激动的,因为里面有一个标题是这样的:Tableau 集成 Python 调⽤用机器学习算法模型
不知道你看到这个的时候是不是瞬感牛逼,然后压力山大。其实完全没有必要,第一阶段的主要任务在于 Tableau 的学习,所以机器学习算法的东西其实教练已经帮你解决了。不过在笔者阅读完 “Your First Machine Learning Project in Python Step-By-Step”
后(作业给到的参考连接),严重建议一定要读完它。
好的,以上心里建设完毕。其实 Exercise05 的作业过程中最需要注意的是,Tabpy 的安装,反正笔者是安装花三天,作业完成 30分钟。
在整个作业中教练已经给到了一个错误的解决方案(AttributeError: module 'tornado.web' has no attribute
) ,但是笔者遇到的却是另外一个 DLL load failed
。这里先直接告诉你解决方案,只有两步(如果想了解具体的思考过程可以在笔者 每日打卡 中翻一下):
'bin'
文件夹添加到系统环境变量中最后,给一个成品图,供你参考:
写在前面的话
先说一下目前的学习感受好了。一方面,笔者是第一次接触解锁式的学习方式(笔者在学习 14 天的课程的时候其实还不是解锁式的),感觉这种方式更像是自学,教练给出的作业是一个方向,能走到多深多远其实看你自己。另一方面,随着时间线的拉长,以完成作业为目标已经不是那么重要反而对于学习者本身的耐心也是一个挑战(但是教练建议3-5天笔者认为很合理,如果时间线太长容易失去动力)
整个学习下来,笔者有一点觉得多少有点难受。就是在学习内容比较多的时候总会无谓的担心是不是我学多啦,会不会走偏啦,后面万一没有用到怎么办。其实这也是笔者决定写这个内容的初衷之一,希望你对每个模块有一个整体的了解,从而可以更好地帮助你完成作业并规划自己的学习进度
内容本身是笔者将自己完成作业过程中的内容和思考做了进一步提炼总结而来,旨在希望可以帮你更好的完成作业或作为作业完成过程中有效的参考。同时本文也会随着笔者的学习进度做不断扩充。如果你看到有任何的问题可以在下方回复,笔者会尽力解答。
但是如果你在学习的过程中需要感受氛围及感受并不孤单,本文也许并不无法达到期望的效果。可以出门左转,看看大家的每日打卡,可能效果更好
本文主要包含内容如下:
作业完成的基本思路
看学习目的,学习目的和自学任务往往是匹配的,它在一定程度上指导你需要走多深。因为我们知道编程就是有很多 “过早引用” 的,一路扎下去并不总是一个好策略(笔者在Exercise01-05的时候并没有在意这一点,走了不少弯路)
按照自学任务保质保量的完成作业
出现任何问题及时和教练沟通(笔者不太喜欢闲聊,因为沟通的内容本身也是人格的对外传播)
另外,参考资料一定要看。笔者发现参考资料有两种类型