1901010056_数据分析营学前作业

姓名：马林
工作背景：准大四学生狗
自我介绍:有一年七个月时长的时间记录者，这个习惯加速了自己的进步，所以很多场合都很想说两句，希望大家可以一块时间记录，加速成长。最后也非常高兴认识大家，希望能互相学习，互相帮助，互相鼓励，共同进步。
我学习Python的目的目前是为了将来的工作加筹码，“独善其身”完了以后，希望可以“平天下”，哈哈说得有点大了，目前希望用途：
- 可以用在对Python领域工作岗位的分析上
- 对自己的两本时间记录数据的分析上
- 如果时间记录分析出的各项数据，能给自己带来清楚的认知以及未来计划的优良改善的话，我希望可以将功能落地，组建一个社群去帮助更多伙伴养成时间记录，分析时间记录的好习惯。
目前的学习阶段：Python入门营的学习内容，MIT入门课，Python相关书籍的阅读
疑惑：Python的细分领域下实际的工作内容有哪些？学员所学的内容有没有对平时的学习工作立即产生帮助的例子？

exercise01

目的

学习使用 Tableau Prep 清洗、转化、组合数据
学习使用 Tableau Desktop 连接数据源，绘制基本图表

统计学基本知识

众数：众数（Mode）是指在统计分布上具有明显集中趋势点的数值，代表数据的一般水平。也是一组数据中出现次数最多的数值，有时众数在一组数中有好几个。
均值（mean）：样本中所有数的平均值。
中位数（median）：样本排序后，处于中间位置的那个数。
极差或全距（range）：数列X中最大值与最小值之间的差值，用于描述X的数字分散程度，越小则数字之间越紧密
中程数（midrange）：数列X中（最大值 + 最小值）/2
偏差（deviation）：样本中各数据比平均值大多少或小多少的数值。
方差（variance）：方差是衡量源数据和期望值相差的度量值。方差是数据偏离平均数的程度。
- 找出数列的平均数。
- 找出方差。得到方差首先要计算单个样本数据和平均数的差，然后平方，再求平均数。注意，如果样本数据很大，可以除以n-1。
标准差（StandardDeviation）：标准差是方差的算术平方根。标准差会告诉你数据域平均数的离散程度
最大值（maximum value）：为已知的数据中的最大的一个值。一般可以通过排序比较求出。
最小值（minimum）：为已知的数据中的最小的一个值。一般可以通过排序比较求出。
箱线图：由一组数据5 个特征绘制的一个箱子和两条线段的图形，这种直观的箱线图不仅能反映出一组数据的分布特征，而且还可以进行多组数据的分析比较。这五个特征值，即数据的最大值、最小值、中位数和两个四分位数。
四分位数（Quartile）：把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值就是四分位数。
- 第一四分位数（ {\displaystyle Q{1}} Q{1}），又称较小四分位数，等于该样本中所有数值由小到大排列后第25%的数字。
- 第二四分位数（ {\displaystyle Q{2}} Q{2}），又称中位数，等于该样本中所有数值由小到大排列后第50%的数字。
- 第三四分位数（ {\displaystyle Q{3}} Q{3}），又称较大四分位数，等于该样本中所有数值由小到大排列后第75%的数字。
- 分位距（InterQuartile Range, IQR），第三四分位数与第一四分位数的差距
- 确定四分位数的位置：
Q1的位置= (n+1) × 0.25

Q2的位置= (n+1) × 0.5

Q3的位置= (n+1) × 0.75

n表示项数

对于四分位数的确定，有不同的方法，另外一种方法基于N-1 基础。即

Q1的位置=1+（n-1）x 0.25

Q2的位置=1+（n-1）x 0.5

Q3的位置=1+（n-1）x 0.75
- 实例：
数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36

由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

一共11项

Q1 的位置=（11+1） × 0.25=3， Q2 的位置=（11+1）× 0.5=6， Q3的位置=（11+1） × 0.75=9

Q1 = 15， Q2 = 40， Q3 = 43

卡点1：ZIP code 是什么意思？

邮政编码

2019/8/8 /12：30

我现在是感觉脑袋里有很多的问题一下子，涌出来了，让我觉得一下子压力大了不少。

卡点2：上面名词的优缺点是什么？应用场景是什么？

卡点3:怎样上外网呀？也买一个VPN 吗？还是先下载学员的那个，然后用免费的使用期，去探索一下教练推荐的？

我现在先注册一下Tableau Prep 和 Tableau Desktop ，用他们的14天使用期，发现页面加载速度还是非常慢的，可能是没有开外网是原因，那我现在走第二种途径，

卡点4：找不到入门视频中所提到的文件?

经过昨天的摸索讨论，今天已经可以解决这个问题了，通过搜索发现根本没有这个文件，所以下载下来。

改版后的故事

我是一家大型连锁店的老板，我想要分析过去四年的产品销售额和利润，我现在手边拥有的工具是Tableau Desktop。在开始收集数据的时候，有人已经为每个区域收集和跟踪过数据，我还注意到不同文件中有大量的创新数据条目，而且每个区域甚至每年都有单独的文件。

我首先需要做的是大量的数据清理工作，然后再Tableau 中分析数据，而这项工作需要很长的时间。

突然想起来Tableau Prep Builder，可以帮助我完成艰巨的数据清理任务。

第一步，连接数据终于完成。

开始第二步，浏览数据。我已将数据文件加载到 Tableau Prep Builder 中，我很确定自己想要将文件合并在一起。但在执行该操作之前，不妨先检查一下这些文件，看看是否能找出任何问题。

第三步，数据的清理绝对是一个重头戏。

然后又一个重头戏，合并数据。

卡点:怎样将tableau 中的两个字段名不一样但是数据却相同，合并到一块？

修改名称，出现框中的内容，是不能合并来自同一个表的字符段。

只字不差地阅读后，发现提示里面有一个连接，解决合并字段的问题。

通过对按钮的摸索尝试，给解决了问题。厉害，有一个撤销按钮，真的给各种尝试剩下了不少的麻烦。

现在，唯一一个没有匹配的字段是“File Paths".

这个软件的功能

快整理好的数据，也可以加入新的Excel 文件，来进行。

花了大概6个小时，把官网视频入门训练给搞下来了。

卡点

现在开始做作业了，Tableau Prep 练习。

上面两个等式不知道怎样通过代码实现

我想通过”减“的各种英文名称，来找出函数，发现找不到，索性用一下”-“减的符号。

脑子又出现了一个疑问，当日涨幅，收盘价，开盘价怎么表示呢？看一下表格，可以用表格中的英文字母代替。

减这个操作相对应的函数再创建字符段中没有，找遍了都没有，但是当日涨幅这个不知道该怎样表示，需要定义吗？

当日涨幅=收盘价-开盘价

其中的收盘价是 Close,开盘价是Open，当日涨幅需要定义一下吗？代码怎样表示这个式子呢？

下面的解决方法是自己请教战友的结果

先定义字段名
在公式栏里输入 close 就会跳出来点一下
输入运算符 -
再输入 open 又跳出来选择就行

问题：tableau 中聚合操作的目的是什么？

我分析出来的数据存储路径C:\Users\malin\Documents\我的 Tableau Prep 存储库\数据源

卡点：怎样从图一弄成图二呢？

1565517435110

发现，这是一个工作簿，但是题目要求是文本表，我得想办法找到文本表。刚好发现参考资料中有Tableau 官方知识库 https://www.tableau.com/zh-cn/support/knowledgebase#desktop 。打开有一个搜索框，直接搜索文本表，相关生成文本表就出现了，参考了相关的，再经过自己的摸索，终于生成了图二的形式。

卡点，再条形图中怎样把两个变量弄到一个图上？

怎么拖都拖不动，在QQ 的提示下终于解决，

但是又发现出来的结果和答案的结果不一样，只能在做一遍了前面的。

有花了0.8个小时，从头做了一遍终于作对了。

总共用时13个小时。

exercise02——Tableau 基础分析与可视化

首先拿到后，大致看了一下任务发现有很多都是昨天所遇到的，常用的基础图表昨天就做了两个，这是一个重合点，剩下的基本上是新学的内容，话不多说，开干。

[TOC]

此次学习我希望有那些冲动性的收获

知道常用图表的试用场景。
使用Tableau 故事整合可视化结果，用于分享

第一个任务是了解Tabeau 的基础知识

数据聚合：

先列出需要掌握的这个概念，数据聚合，剩下的都是额外需要补充的收获。

首先顺藤摸瓜摸到了，纬度和度量这两个概念，昨天中有碰到过这两个按钮

纬度：维度包含定量值（例如名称、日期或地理数据）
定量值：
度量包含可以测量的数字定量值。度量可以聚合。
离散：“各自分离且不同”
连续：度量包含可以测量的数字定量值。度量可以聚合。

不行感觉跑的有点远了，赶紧先会过来，解决数据聚合是怎么回事？

点开给出的连接后，直接蹦出来的页面是，如何解聚数据？我个人先猜测一下，数据容易理解，聚合也容易理解，应该是把数据给弄到一块？但是非常需要确定一下，因为这种盲目猜测很危险。

里面这个例子很清楚地描述了，解聚数据的作用？

解聚数据的作用的例子：

您可能正在使用一个轴上的参与者年龄对产品满意度调查结果进行分析。可以聚合“Age”（年龄）字段以确定参与者平均年龄，或者解聚数据以确定哪个年龄的参与者对产品最满意。

先这样，看下一个‘Tableau 视图标记’。第一个连接大致看一下，也是对试图中标记的外观，比如说大小，颜色，形状，顺序，等等进行了相关的设置。第二个连接，是关于试图中标记的类型，进行选择，昨天做的一个图是条形标记。

然后，看一下，表计算。第一个连接是，寻址和分区。

分区（划定范围）或寻址（定向）。

分区字段：用于定义计算分组方式（执行表计算所针对的数据范围）的维度称为分区字段

寻址字段：执行表计算所针对的其余维度称为寻址字段，可确定计算方向

好吧，剩下的内容明天再看

2019/8/13 八点

好继续昨天的内容。对了，先把exercise01 的作业补充一下。

卡点：怎样把两张图导出到一个打包工作簿当中呢？

本打算问一下教练，当在描述问题的时候，发现了转折点，因为需要清楚地描述问题，所以我需要把百分之百确定描述的东西是什么，肯定是任务清单中的某一项，看任务清单的时候也必须自信看，仔细看的过程中，

是用两个工作表完成两张图表绘制，那两个图表就是问题的转折点，因为你用的是一个表呀，两个工作表都是同一个数据源，这是迷惑我的地方，那就在用同一个数据源，创两张表，然后导出一个打包工作簿。

再回过头来，看第一个教练提出的，按要求完成 csv 的合并，根据贴出的任务清单找问题的线索。有一个点有问题，这次涉及到两次的输出，一个是输出到一个文件里，而当时自己每记错的话，自己错在了输出到一个文档形式。

赋予：现在自学Python编程的非常重大的一个意义

现在这个编程的自学营，原来是笑来老师想亲自做的，但是因为他现在有了更好的事情需要去做，所以现在这么好的一个事情就被落下了。这里我可以学习的快一点，好一点，超越绝大多数人，多写感想，多谢记录，然后，把自己打造成为一个大的IP 。谁说这个营不需要一个大的IP呢？肯定是需要一个成功的案例的，这能激励很多人自学Python ,掌握自学能力，功德无量的事情。还有一个，自己学习的好的话，也能顺带积累一下自己的影响力。

自己写的东西，一方面是放到，Python 营的博客上，另一个也可以放到自己的公众号上呀。甚至可以把一些内容制成有声版，方便听。再公众号上，自己也可以写教程呀，写怎样进BOX 定投践行群的教程（并且一周跟新一次）。

2019/8/14

杂想

不行感觉最近的状态不是很好，虽然，基本上老是把注意力弄到了定投的销售上了，没有必要花那么多时间的，但是就是很廉价地在销售自己的单份时间，而且由于情绪的影响自己，自己的注意力甚至很多都被掠夺走了。

从这个逻辑上推，为什么自己可以花时间来挣这个钱，因为，肯定是更划算自己，才去花这个时间去挣这个钱，所以怎样把自己的时间出售很多次呢?我可以借此机会积累影响力，因为两大部分都是志同道合的人，和自己的价值观很相同的人，自己完全可以通过这个阶段去积累大票的高素质用户。

表的计算

好，先把这一个小东西弄清楚。

首先很重要的一点，表计算有什么用？说白了就三个字——转换值。转换值为排名，转换值以现实汇总，转换值以显示总额百分比。

分区字段：用于定义计算分组方式（执行表计算所针对的数据范围）的维度称为分区字段

寻址字段：执行表计算所针对的其余维度称为寻址字段，可确定计算方向

你能区分它们的区别吗？分区，寻址。分和寻是两个动词，很容易理解。区指的是数据范围，址指的是计算的方向。

然后，需要针对两个名词——表和区，执行一系列动作。

快速表计算

还是先说最重要的部分——有什么作用

汇总
差异
百分比差异
总额百分比
排名
百分位
移动平均
年初至今总额
复合增长率
年同比增长
年初至今增长

趋势

在可视化项中显示趋势线的目的就是突出显示数据中的趋势。

参考线，参考区间，参考分布和参考箱有什么区别，它们的各自作用是什么？

任何一个连续轴都可以添加上面这四个东西。下面这个连接是这四个名词的详细定义以及添加操作。

https://help.tableau.com/current/pro/desktop/zh-cn/reference_lines.htm

百分比

还是最重要的作用：在 Tableau 中，任何分析都可用百分比的形式表示。比如，你可能不需要查看每一种产品的销售额，而需要查看每一种产品的销售额占所有产品总销售额的百分比。

比如，表，行，列，区，区中行，区中列，单元格，这几个都可以设置相应的百分比。各个更详细的介绍在下面的连接中。

https://help.tableau.com/current/pro/desktop/zh-cn/calculations_percentages_options.htm

下面的在做任务二中就应该想着怎样组织任务三。

Tableau 常用基本图表

文本表，这个在exercise01 中领教过，我是被这句话卡住了，当时没有找到这句话然后您通过将一个或多个度量拖到“标记”卡上的“文本”来完成视图”。这句话也差一点又卡住我。首先在找数据源的过程中花费一些时间，

画重点，下面有整个图创建时的步骤，太棒了，这样的话，剩下的几个表应该会更快点，跟着步骤做这个文本表大概花费了0.4个小时。不对，还没有完成，根据任务的要求还得对图表添加说明。哈哈，完成了，发现需要添加说明的表单中没有文本表。

开始向下一个表发起进攻。

条形图

条形图优点：可以清楚地表明各种数量的多少

条形图用途：在各类别之间比较数据

条形图使用场景：用场合是二维数据集（每个数据点包括两个值x和y），但只有一个维度需要比较，用于显示一段时间内的数据变化或显示各项之间的比较情况。

用了0.5小时完成了条形图。

折线图

先直接看一下动图演示，加快学习效率。

折线统计图的特点：能够显示数据的变化趋势，反映事物的变化情况。

折线图的用途：预测未来图的走向

场景：数据在一个有序的因变量上的变化，它的特点是反应事物随类别而变化的趋势，可以清晰展现数据的增减趋势、增减的速率、增减的规律、峰值等特征

用0.3小时完成折线图

区域图

区域图的特点：区域图是一种折线图，其中线和轴之间的区域用颜色标记为阴影。

区域图的用途：域图的段时间内的累计合计，是显示堆叠线条的便携方式。

区域图的使用场景：来表示运货模式的随时间的数量的增加量的变化多少

用0.2小时做完奖励一下自己。休息会。算了直接做，累了在休息。

组合图

组合图特点：组合图是在同一可视化项中使用多个标记类型的视图

组合图的用途：同一视图中显示多个详细信息级别。

组合图的使用场景：您可以将利润总和显示为条形，穿过条形的线条显示销售额总和。

用时0.2小时

还有一个小方法可以提升效率就是可以打开三个文档。

饼图

特点：使用饼图可显示相对于整体的比例。

用途：很容易看到组成成分的占比

场景：适用于二维数据，即一个分类字段，一个连续数据字段，当用户更关注与简单占比时，适合使用饼图。

用时小于0.2小时

点位图和填充地图：

点位图

特点：若要构建简单地图，您的数据源必须包含位置数据（位置名称或者经纬度坐标）。

用途：构建若干不同类型的地图来进行地理分析

场景：地图上的数据点将更新以按比例显示销售额。

0.2小时

填充图

特点：若要构建简单地图，您的数据源必须包含位置数据（位置名称或者经纬度坐标）。

用途：构建若干不同类型的地图来进行地理分析

场景：地图上的多边形将更新，以使用颜色显示销售额。

0.05小时

散点图：

特点：直观显示数字变量之间关系。

用途：要向视图中添加趋势线，两个轴必须包含一个可解释为数字的字段 — 根据定义，散点图的情况始终如此。

场景：以利润位 x 轴，销售额为 y 轴，表示三个不同种类商品的走势，随着利润的增大，不同的商品的销量的增长快慢不一样。

0.35小时

填充气泡图：

特点：气泡的大小是用度量来表示的，颜色可以是维度也可以是度量，标签是纬度或度量

用途：可以用大小和颜色分别代表一个东西的两个变量

场景：不同产品类别的销售额和利润信息的基本填充气泡图

0.3小时

直方图

特点：“行”功能区是连续的度量

用途：比较同类别各变量和不同类别变量总和差异。适合展示同类别的每个变量的比例。

场景：将“细分市场”添加至“颜色”，看是否可以检测到客户细分市场（客户、公司或家庭办公室）与每个订单的产品数量之间的关系。这就是适合展示同类别的每个变量的比例。

0.35小时

甘特图：

特点：使用甘特图来显示事件或活动的持续时间。“列”功能区是“日期”或“时间”字段（连续度量）

用途：在甘特图中，每个单独的标记（通常是一个条形）显示一段持续时间。

场景：可以使用甘特图显示一系列产品的平均交货时间。

0.35小时

标靶图：

特点：标靶图是一种特殊形式的条形图，用于替代仪表板的仪器和仪表

用途：靶心图在比较主度量与一个或多个其他度量的性能时十分有用。

场景：显示实际销售额与估计销售额比较情况的单一靶心图

卡点：靶标图的按照步骤显示不出正确图？

尝试了几次都不行，打开数据源发现原来选择的数据不行了。可是作业中的数据源为什么也不能用呢?

在做靶标图时，打开官网下载的世界指标，里面的需要用的Tourism Inbound”（入境旅游）和“Tourism Outbound”（出境旅游），显示是NULL，然后用作业中的世界指标的数据源，又打不开。求解？

0.8小时没有解决，先做下一个吧，又花了0.2小时和同学讨论解决。总计1小时，

热图

特点：密度图可帮助您标识包含更多或更少数量的数据点的位置。

用途：呈现包含许多重叠标记的密度数据中的模式或趋势。

场景：不同国家的，婴儿死亡率和女性预期寿命的密集度

0.3小时

突出显示表

特点：用颜色表示分类依据。

用途：选择“方形”作为标记类型并将相关度量放在“颜色”功能区上

场景：分析各个市场的利润和销售额的大小

细分市场这个纬度为什么要放到列上？它的作用是什么？

因为要对各个市场的利润和销售额的大小来分析的，

0.4小时

还是在作图的时候，多提出问题效果比较好

树状图

特点：可在嵌套的矩形中显示数据

用途：树状图是一种相对简单的数据可视化形式，可通过具有视觉吸引力的格式提供见解。

场景：创建显示一系列产品类别中的聚合总销售额的树状图，将“Sub-Category”（子类）维度拖到“列”功能区。将“Sales”（销售额）度量拖到“行”功能区，Sales”（销售额）确定其矩阵大小。将“Profit”（利润）度量拖到“标记”卡的“颜色”上。现在，“Profit”（利润）确定矩形的颜色

分析结果：桌子的亏损程度最大

0.3小时

盒型图

特点：来显示值沿轴的分布情况。盒形图适合用于显示数据分布情况，当数据是聚合数据时，可能很难实现此目的

用途：盒形图适合用于显示数据分布情况

场景：用来表示折扣对于消费者和企业市场细分的比较

又将区域拖到细分市场的后面有什么用？

简单来说，就是细分市场分的更细了

分析结果：折扣的四分位距（从第 25 个百分位到第 75 个百分位）在中部区域对于“Consumer”（消费者）和“Corporate”（企业）市场细分为最大。

0.3小时

创建仪表板

仪表板的作用：仪表板是若干视图的集合，让您能同时比较各种数据

仪表板的特点：工作表和仪表板都会随着数据源中的最新可用数据一起更新

0.5小时

创建故事

用了1.5小时

总结

完成exercise02总共大概用时10.4小时，由于销售BOX定投践行群的这一周，注意力有点涣散，所以做作业的时候建议把手机关机，做作业做累了，抽出一部分时间同一回复。

14天的作业风风雨雨

我叫马林，一名普通二本农学专业的学生，对于 Python 的学习是零基础，但是看到树联寻英发布的《大数据人才报告》中的一项数据：目前我国大数据人才仅46万，在未来 3~5 年内大数据人才缺口达 15000000之巨。

我毅然决定利用自己的课外时间扑到Python 语言的学习上，没想到学这门课时，收获的绝不是语言的学习那么简单。

编程路上的难点

观察一下，完成这14天作业任务的所用的时间图。

Python图

刚开始做任务的时候，难度范围都在我这个小白的解决范围内，在 day 3 的记录中（下面附有14天学习记录），甚至狂傲地写“用好google和google 翻译，似乎没有什么事是解决不了的”。

后来发现是自己不懂事，没有经历过 day 11任务的暴击，没有见过什么大风大浪，才口出狂言。当做day 11 任务时，自己怎么搞也找不出问题，带我的教练也找不出什么问题，当时都心态都快崩塌了，我是做不到day 14。

幸亏新生营高手云集，教练搬来救兵，花了大概半个小时搞定这个我眼中这个似乎不可能完成的任务，他们这波操作的速度，效率惊人让我佩服的五体投地。

经历过这个图的最低点和最高点后，自己的心态也更加的平和了，真真切切感受到，一个困难当在你的面前，不要怕，要多想想办法，多搜索搜索，多向高手请教，总会有办法的。

如果不是教练的帮助，这个图可能就没有 day 11 后面的曲线了，这里真的要感谢优秀教练的细心指导。

我完成这14天的课程总共用时110.2小时，每个项目平均所用时间是7.87小时，具体到每一个任务，自己所用的时间千差万别，或多或少，但都是进步的痕迹。

编程路上的断点

结合以下时间记录:

3月29号到4月15号，保持着一两天完成一次作业的频率。
4月16号到4月26号，考试和实验吃掉了几乎所有的时间。
4月27号28号，花了两天总计16.5小时在Python上。
4月19号到5月9号，实习实验是主要旋律。
5月10号，11号，14号完成了最后三天的任务。

分析上面的5小段时间记录，其实在第4段时间中，其实有时间把最后的三天任务完成的，但是令人诧异的是，自己就是以”这几天做实验“为理由，让自己心安理得地拖延着。

幸好，Python营的辅导员，督促了我一下，像一个火柴一样，点起“我这根冲天炮”完成了最后的冲刺。

相信有的同学也会和我一样，莫名其妙地就把任务给搁浅了，其实想一下任何事情要想放弃，找个理由那不是轻而易举的事情吗，一旦发现进入这个怪圈，出来的最好办法就是立即马上开始行动起来，抛开理由直接开做，亡羊补牢，为时不晚。

所谓拖延的理由就像是在“温水炖自己”，慢慢地，不知不觉地就把自己给“炖”了，如果这时有一个人善意地提醒你该从锅里出来了，这样不更好点吗？辅导员的一个更重要的角色就是提醒者，提醒偶尔开小差的我们赶紧开始手上的活。

从自学训练营和MIT Python营中的收获

自学社交环境的重要性

在MIT Python群里面，50岁的严雨同学依然在乐此不疲地自学Python,不管他说什么做什么，这样一个人就站在那，就会给我有很大的学习刺激，让我不好意思的拖延，让我不好意思偷懒。

群里还有一位妈妈王娟芳同学，每天清晨早早地坚持自学Python,晚上得把孩子哄睡觉，只有早上她的不被打扰的空闲时间块才稍微大点，乘着孩子还在梦乡里甜睡，抓紧时间赶紧开始学习，这样的妈妈将来肯定能给孩子树立一个好榜样。

还有只用6天的时间就完成了预计14天才能完成的任务的中学老师王晓镜同学，可见自学能力之彪悍，她自学excel vba 让工作流程半自动化，她自学英语，解决女儿出国上学各种英文文献看不懂的困境，她现在也在学Python ,真期待她会用在什么地方？

还有开连锁餐厅的中小企业老板代智国，经过十年的创业，已然有一个慢慢成熟的团队在帮忙赚钱，依然用20年前的四级英语水平，坚持自学完成Python入门课的任务。

还有被女朋友不小心带进编程世界玩嗨了的李浩天同学，还有总是那么热心帮助别人的QueenieQ同学······

太多太多的优秀学员身上的闪着光的优点，都是自己学习的对象，我也相信未来一定会有更多优秀的人会像一股股新鲜的血液一样加入进来，继续深刻地影响着社群里的同学。

这些活生生的人们，让我的镜像神经元异常的兴奋。就像是在看被打针的人时，自己也能感受到疼痛一样；就像是看到别人在打哈欠，自己也会情不自禁打哈欠一样。我就是被他们的实际行动所震撼到，从对我学习Python 也产生了很大的积极的影响。

这里所支撑的原理也是瑞达利欧Ray Dalio的重要原则之一。

只字不差地阅读

训练营每天的任务相关的无论是中文的还是英文的，我都不得不只字不差仔细阅读，不然，读不懂其中的专业术语，不了解文献对于完成任务的助力点有哪些，不能向教练提出一个有建设性的问题，最后的结果只能是完不成任务。

只字不差地阅读“自学任务清单”，只字不差地阅读官方英文文档，只字不差地阅读教练给你发的参考性文章，只字不差地阅读相关的各类参考书籍···

只要是可以读的东西，都要只字不差地阅读，这是解决问题的前提，如果习惯性地怕麻烦，你想通过快速阅读、找捷径快速完成自学任务清单，到最后发现，你的快速阅读不会加速你学习进度，反而适得其反。

通过快速阅读，自己会遗漏很多有效信息的，尤其在一个刚处于编程起步阶段的我来说这种影响尤为的强烈，一大堆专业术语都不懂，一大堆的英文单词都不会，一大堆的抽象的代码块都不明白，妄想通过快速地阅读文档，浏览式地走马观花地看，从而理解文档表现的意思，从而找到解决办法，这都想什么呢？

这几轮快速阅读下来，我就老实了，还是仔仔细细地只字不差地阅读吧，即使只字不差阅读也还有的内容不能完全吸收呢，我在走马观花地看那岂不是有效信息吸收的更低嘛。这有一个任务清单放到这很好，让你最起码保证有的内容你是真的读进去了，而且能解决眼前的这个问题。

就这样一个能力——只字不差地阅读，是完成任务所必须的，所以也是在自学编程中不断锻炼的。

发挥自己的主动性

十几年的教育让人习惯了先学习再解决问题的先后顺序，让人养成了被老师要求被家长要求的习惯。

可是现实世界里，没有说先让人预习一下怎样赚钱，及格了再出去赚钱；没有说让人先去预习一下怎样谈恋爱，及格了再去谈恋爱，没有说让人先预习一下怎样做父母，及格了再为人父母。

在学校教育里，父母老师会尽他们最大的努力督促你监督你，从而让你失去自己的主动性，他们说什么你就做什么，他们不让你做什么你就不做什么，这导致有太多的大学学生进入大学一下子失去了方向，不知道自己应该做什么。

爱因斯坦对教育有自己的洞察，他说过这样一句话

Education is what remains after one has forgotten everything that he has learned in school.

教育就是当一个人把学校所学全部忘光之后剩下的东西。

这样的话，我们的教育留下的只有对学习的恐惧。殊不知，因为对于学习厌恶就耽误了自己的大好前程。

自学营创造的氛围就是，你得发挥你自己的主动性，你做完作业了你就去问辅导员要；你遇到了问题你先自己找解决方案，找不到在主动地问教练；你遇到编程的实战问题需要身边人的帮忙自己去找，你的主动性发挥着极大的作用。

只要你发挥自己的主动性，教练辅导员就会非常有耐心地帮你解惑，就像电影《羞羞的铁拳》中的这张图，教练，辅导员可能会发出欢快的怒吼：“你问问题呀!!!“

![1](C:\Users\malin\100--master\MIT 解释图\1.jpg)

自学是未来的趋势

原因1：现在获取信息足够方便

近代的书变得相对于以前已经十分便宜，互联网的出现让很多有价值的信息获取的难度极大的降低，任何课题，任何难度的和任何层次的书本、网络课程都可以很容易的获得。

学习方法和学习媒介很有关系，而学习的媒介现在很自由。

相对于以前的竹简时代只有贵族才能有资格有财力看的书，我们相对来说真的是太幸福了。

在加上网络上的巨型图书馆一样的存在，比如Google，Wikipedia，Youtube,只要善于寻找，很多知识都是能找到的，但是也只有自学能力的人，这些资源才能为自己所用。

原因2：高级教学的要点是以学生为主，而不是以老师为主

学校老师的存在是为了保证全班同学学习进度基本保持一致，老师的那个进度是根据水平中等偏上的同学设定了，从而导致了很多学生跟不上学习的进度，一直得不到成就感，并且还会收到老师的批评，家长的指责，他们对学习不产生厌恶才怪呢。

我接触到的大学老师十个有九个都是照着ppt在读，而我们手里就有他们的材料，我不知道搞这个形式主义有什么意思。

但是让教育真正以学生为主，那不现实或者对现在的我们一点也不现实，所以就算不能让老师以学生为主，最起码也应该自己以自己为主才对。自学营中的教学要相对来说更好点。

原因3：时代发展速度太快，只有自学才不会落伍。

我是准大四学生狗，还没毕业专业已经被取消了。

前段时间，教育部公布：2018年全国416个本科专业被撤销。实际上，在过去的的五年，中国大学被撤销的专业增加了六倍多：2014年这个数字还只有66。

在工业时期，因为工匠的工作被分解成生产线中的小的工作，从而创造出了许多的工作岗位，而在人工智能时代，机器人将会流水线上的工作给解放出来，不止在工厂内，像货车司机，驾驶员甚至是电话销售，客服，血液学家和放射学家的工作都会在未来15年内慢慢地被人工智能所代替。

每个生活在这个快速发展的时代中的人们，都应该通过自学来让自己尽量跟上时代的发展，否则某一天醒来，可能发现自己失业了。

下面是自己的day1~day14的更为详细的收获与总结，一路走过来，遇到的问题卡点很多，但这却造就了最后的成功。

我对乔丹的做的一个广告有一个特别深的印象，里面他说这段话与大家共勉：

我的职业生涯里，有9000次投篮失败。我输过不下300场比赛，有26次人们期待我投入制胜一球而我却失误了。我的一生中一次又一次失败。这就是我成功的原因。

数据营exercise03

基于地理位置的分析和可视化

[TOC]

杂想

发现如果按照一个月10个任务计算，这个月还有8个任务，今天是16号，还剩下15天，平均算下来是需要每个任务两天不到的时间的。
写感想之前，就可以设置一个内容目录放到这，方便来回查看，以及思维的框架构成
杂想是这一栏就可以弄一个无序的任务列表，杂想本来就是想一出是一出，这样无序的任务列表放到这挺好的
tableau 绘制地图的应用场景有哪些？这个问题提出后，看完任务也没有明白任务中解决的是什么问题？暂且放这往后做完应该就明白了。

Tableau 绘制地图的应用场景有哪些？

城市分组的规则怎样弄？

应该是要完成教程中的内容，回过头来发现，这一步是对应的教程的一步的变通后的步骤。

卡点：row ID 找不到

后来发现知识演示了一个例子，继续往下走

卡点：创建地理分层结构

在“数据”窗格中，右键单击地理字段“Country”（国家/地区），然后选择“分层结构”>“创建分层结构”。

但是分层结构之后不是教程中的“创建分层结构”，而是从“分层结构中移除”，这一步卡住后，后面都没有办法做了

一开始没有把问题写出来，徒劳地想了很久，浪费了很多时间，直接问以下教练。在默风的提示下完成了，

卡点：怎样弄成中国的区域

这个需要打开的文件应该是“示例—超市”这个数据源，这个才直接显示的是中国地图。

卡点：意外的卡点

exercise03 的作业无论是笔记，还是作业都因为当时自己的网络原因没有保存成功，尽自己最大的努力在做一遍然后，把笔记内容在回顾一遍。

重大意义

我要加快学习的效率，然后做一个比特币交易的机器人，帮自己做点小生意。以后就可以让机器去帮自己去挣钱了，而且还是不知疲惫的工作，想象都激动。加油。本来人生都是没有意义的，意义都是人想出来的，工业时代的工作才是生命存在的价值，不就是一个很明显的认为想出来的意义吗？所以你要想出学这个Python 能赋予你的极大的意义，这样你做的话，是根本不知道疲惫的，而且还是很高兴，精力充沛地做这件意义重大的事情。

回忆卡点：为地理数据分配地理角色，在“标记”卡上，单击“Country”（国家/地区）字段上的减号 (-) 图标，从详细级别中移除“State”（州/省/市/自治区）。操作完成后是世界地图，怎样继续中国地图？

点击右下角的 null ，然后点击编辑地理位置，把美国改成中国就行了。

回忆卡点：在工具提示中怎样编辑每个地区的总销售额？

这文档中的操作又是少一步，需要把数据的“度量”框中的销售额拖到，底部的“经度（生成）”，然后再在底部的“（经度(生成)”标记卡上，单击“工具提示”。然后插入相对应的字段。

回忆卡点：怎样把给的图像给插入进去?

这个的话需要多找找，相关的连接，根据文章和自己的情况构建一个新的表，然后和那个表并联一下。然后剩下的就是跟着一步一步操作就OK了。

。

exercise05

Tableau 高级分析与可视化

[TOC]

标准偏差

一种度量数据分布的分散程度之标准，用以衡量数据值偏离算术平均值的程度。标准偏差越小，这些值偏离平均值就越小。

布林线，教程跟着练完用了0.5小时。

问点：控制图的作用是？

控制图用于确定测量中的变化是否在可接受的范围内，通常由标准偏差确定。控制图通常使用时间序列数据完成。

卡点：在制作控制图时，创建 Lower Bound 字段，跟着教程走为什么显示有一个字段无效?

发现写的几个卡点，都没有了，难道软件该更新了，没有保存上吗？等会结合聊天记录再总结一下。

问点：瀑布图有什么作用？

瀑布图表显示维度上特定度量（通常具有正值和负值）的运行总计。它显示了每个维度成员与运行总计之间的关系 - 即每个成员如何对总体总数做出贡献，无论是积极的还是消极的。

卡点:用比特币价格走势图的2019年6月数据预测2019年7月，8天的走势。

第一个连接已经跟着做了一遍了，但是仍然不知道如何下手，还好还有一个连接文档，把这个文档好好读读。what!!! 这个文档是视频的文字版，好吧，再好好看看文字版本。

卡点：调不出19年6月份的数据。

打开数据表后发现是有19年的6月分的数据的。改正措施：右键单击数据纬度下的Date,然后默认属性后的日期格式，选择表格中的日期格式。成功。

Tableau 与 Python 协作

杂想

今天的任务目的就一个掌握 Tableau 与 Python 的协作关系
第一个任务是安装配置启动TabPy ,里面给了四个连接，三个注意事项，看完这大概七个东西，应该就能解决这个问题了，加油
- 首先应该是下载这个软件包，可是发现网页打不开，问教练要一下，等的途中，发现第二个也打不开，第三个和第四个连接能打开，不过是全英文的。后面也有一个连接是打不开的。
- 我得考虑用不用开一个VPN，把这三个连接给看了。还有一点是今天的Tableau 就要过期了，得乘着今天注意力消耗的差不多赶紧激活一下。等到九点开始这两项任务吧
- 在命令板上怎样从C盘cd到D盘？这个卡点解决起来就一句话，但是如果不清楚地知道自己的问题，是需要很长时间瞎逛，瞎写，瞎操作的。因为我就是在没有明确问题之前，老是用cd命令一直在试，方向不对，试一百次也不行。
Python 3.6.5的下载和环境的配置过程中，下载完安装包后也解压完毕，就是不确定安装的步骤，说是双击就可以安装了，可是我双击后，没有什么反应
终于配置好环境了，下一步赶紧做的事情就是，了解函数，再Tableau 中写Python 代码。
很容易地就找到了，表计算中的这四个函数，当然表计算中还有很多的函数，但是目前需要好好了解这四个函数。这四个函数需要只字不差地阅读，而且还得提出相关的问题，再结合下面的练习。这四个函数的功能是很容易理解的，SCRIPT_BOOL,SCRIPT_INT,SCRIPT_REAL,SCRIPT_STR,分别的功能是：返回指定表达式的布尔值结果，返回指定表达式的整数结果，返回指定表达式的实数结果，返回指定表达式的字符串结果。
我去，被问题这麽久了，很多简单的东西都不知道往哪里找了，幸亏有小伙伴们的提醒，下回多看看作业中的文件，以及给出的文档，不要跑偏了。
在安装anaconda的时候，无意间打开了同学的打卡，发现了很多问题他们也都遇到过，而且他们的学习进度也非常的快，反到是自己，感觉最近的学习效率低了不小，向他们看齐。
又看了一下自己以前的学习笔记，里面有一个非常好的习惯就是对于学习进度的时间的记录习惯，后来做到exercise05难道是被问题打蒙了，我还是要记录自己的在这方面所消耗的时间的，这对于学习进度的提升有很大的帮助。

卡点：在命令板上怎样从C盘cd到D盘？怎样cd到指定的文件？

在dos命令行输入d: 再敲击回车就行了。cd 后加一个空格，然后粘贴过来文件名，点击回车，就可以了。

卡点：怎样配置Python 环境？

根据教练和同学所给的信息，以及自己的搜索，再anaconda 上更新完spyder 后，发现需要手动设置一下，所以再跟着网页上的步骤，操作一下。我现在再把那篇英文文档给详细了解一下。一个小时又过去了，脑子还是很乱，目前有两条路可以走，一条是走Anaconda 这条路，另一条路是走下载安装包这条路，他们共同的目的都是为配置Python 这个环境，不慌先下载单独的安装包，试试。再摸索的过程中意外发现了自己的anaconda 中的Python 的位置，这个时候需要再结合一下网站来试试，因为还是再C盘当中，所以还是高级设置一下。

终于找到了自己的Python 文件路径，C:\Users\malin\Anaconda3\pkgs\python-3.7.1-h8c8aaf0_6。

后来发现上面所有的折腾都没有，得参考下面的文档。

参考中文连接：

https://zhuanlan.zhihu.com/p/54766875

参考英文视频：

https://www.youtube.com/watch?v=hp_8cDTMaGc

卡点：打不开Tableau

打开控制面板准备下载的时候，页面出现了一个修复功能，所以点击修复等了几分钟后，就修复好了，就又能打开了。

卡点：无法pip install tabpy_server

折腾好久都不行，后来实在不行，付费开了一个外网google 后找到了答案，直接在anaconda prompt（和cmd类似，是anaconda带的）在这里面输入相同的命令行就可以了。这里面的解决方案一句话就解决了，可是我花费这么长时间

卡点:Typora 老是保存不了写的东西

索性，想在命令板中直接卸载，发现有一个按钮其实修复一下就可以了。

卡点：有遇到了其他的卡点

后来再和教练请教的时候，发现自己的方向又跑偏了。我tmd 把方向转向了解决一个卡点后的第二个卡点，这第二个卡点又联系到了第三个卡点，我再专注第解决第三个卡点，发现教练已经给出了第二个卡点的正确解决方案。谢谢，蚁人教练把我的方向给拨正。下面是给出的解决，有三次提醒

解压文件； cd到startup.cmd所在目录然后运行startup.cmd，并保持窗口打开。在tableau中设置，“帮助”——“外部配置”，分别输入localhost,9004 运行ipynb的文件搞定

卡点：不知道怎么用Jupyter Lab 打开一个ipynb 的文件？

百度后找到答案，打开Anaconda Prompt(类似windows的命令行工具)，然后cd 到那个文件的地方，在命令行进入存放ipynb文件所在的目录输入命令

 jupyter lab

将在该目录下启动Jupyterlab。

上面方案不行，只能google 找一下答案。

1566829124975

出现这个状况该怎么办，把问题直接写到google 里，查找相关的资料。

在exercise05 这上面大概耗时，从下面开始计算。

2019/8/27/10：25

卡点：在GitHub上的issue打卡时的图片是怎样也显示上去的，为什么自己的打卡中的图片不显示？

在搜索引擎上找到答案，关键是浏览器的原因，直接因Google浏览器的话，直接复制粘贴到上面就可以了。用时0.4小时

感想：很多问题，其实计算上时间，详细地知道问题，对于问题的解决是很有帮助的。

计算上时间的话，会有紧迫感，引用《思考，快与慢》的话，计算你解决问题所用的时间的时候，你其实是可以比不计算时间调用更多的系统2，这个思考也相对来说更消耗注意力。

详细地清楚你正在解决的这个问题，把问题敲出到笔记本上，这样的话，你的注意力用的地方会相对的更加集中，就是力往一出使，而避免了系统二的干预。

下一个动作是将 iris_classiffier 函数部署至TabPy 服务器上。这个函数在哪里，TabPy 服务器还是有i的那印象的，可以将它连接到Tableau 上，这个动作是和前面的有关系的，就是通过浏览器打开的这个ipynb文件里面的一些代码应该是这一步的关键。

2019/8/27/13：21

既然，运行的是python代码，那就可以弄到python 环境然后输入代码，也许这一步是错误的，我得参考一下给出的文档来，推出是在哪里运行这个python代码。加上看两篇英文文档这个问题已经相当于琢磨一个小时，没有结果，和QQ同学讨论了一下，操作了一下，花费0.5小时，终于把这一步给弄过了。

观察分析此工作表，挖掘价值信息，将观察结论写到工作表的说明中。这个分析表确实第一次见行列一样的，说的这，发现这个表有一个特征那就是有一斜线，它对应的横竖代表的都是相同的度量，图形表示的和其他都不一样是规则的一条线，想想含自然的一件事，花瓣和花萼在各个数基本上都有

花瓣的宽度在0.7左右是没有的
花瓣的长度在3左右是没有的
花萼长度基本上是没有小于4的
花萼宽度基本上是没有小于2的

第一个表制作完成大概耗费了0.4小时。

然后创建计算字段，把每一个都亲自敲一遍，而不是复制粘贴过来。

做到这一步，拖动改变参数选项卡中的4个参数，观察预测数据的变化。这一步中的拖动改变有点模糊难道是对应预测表相关的知识吗？找一下以前的作业，操作一下。找到了可是卡在第一步，点击预测按钮，又看了一下说明针对的对象是参数选项卡中的四个参数，动作是拖动或者改变。这里的怎么拖动，改变呢？对了，在看一下拿两篇文档，记忆中也又关于预测的内容

卡点：不知道怎样将工作表显示占满整个视图

在视图中点击查找的时候，找到了这个功能，默认是标准，点击下拉选择"整个视图"就OK 了。这样的话下面才有意义。

卡点：

又尝试看以前的的东西花了0.3小时，但是没又什么收获，我发现发的这个文档的教程还没有尝试着跑呢，上面说大概花费十几分钟，我先把这个教程跑一下，看有没有起色，这个教程跑了一下，花了0.3小时，它是基于python环境跑的，现在在Google上尝试搜索“How to call a Python program in Tableau？‘看有没有什么结果，这个暂且先放这，先做一下表3，表3 还是挺顺利的。再回过头来，看这个表2 的最后一步，因为关于参数的设置我已经忘的一干二净了，所以我决定我要把那5.6个教学视频在看一遍，看一下他们是怎样设置参数的，终于看看视频，又看了一下作业要求有了灵感，因为作业的按顺序做的话，有一步是错过了，所以就后面就走不通了，所以有的句子还是得多读几遍甚至要敲在电脑上一遍，这样才能理解，还有一个是前期的知识有点不清楚，不过哪里不清楚再回看一遍就OK 了。

最后，做一个仪表板就完成了，我是参考这个连接布置的仪表盘

https://help.tableau.com/current/pro/desktop/en-us/dashboards_sheet_selector.htm

记录上时间的话，到底是效率是提高了不少

selfteaching-learning-notes / selfteaching-learning-notes.github.io