issues
search
cyg-dev
/
PJOut
1
stars
0
forks
source link
数据分析基础课笔记
#40
Open
cyg-dev
opened
3 years ago
cyg-dev
commented
3 years ago
何为数据
数据:原始
信息:有价值的数据集合
知识:可决策的数据依据
关键与难点
关键步骤:明确分析目的;
最耗时:数据清洗;
最难:建模分析;
数据分析的一般步骤
明确目的和思路:金字塔法、生命周期理论、逻辑树分析法、5W2H;
数据收集:库、网、
数据处理:提取有价值的数据;
数据分析:提取有价值的信息,形成有效结论的过程。通过相关、分类、聚类、关联和预测寻找模式和规律;
数据展现:文-表-图
报告撰写:遵循前提和原则,反映问题,提出解决问题的方案;
数据存储的挑战
容量、实时性、安全、成本、数据积累、灵活性
数据处理
数据清洗、数据变换、数据规约
清洗方法:忽略、均值填充、手工填补、默认值填充、众数填充、同类均值填充;
噪声处理:分箱、回归、人机结合
检查偏差、纠正偏差
数据变换:最小最大规范化、零-均值规范化、小数定标规范化;
数据分析方法
描述性分析:数据集中趋势、离散程度、分布形态;
探索性分析:相关分析、回归分析、方差分析、显著性检验分析、聚类分析、主成分与因子分析、对应分析;
数据建模
一般过程:选择模型、训练模型、评估模型、应用模型、优化模型
监督学习问题与无监督学习问题;
无监督学习:K均值聚类
方法、工具、可视化(交大-白永乾)
德鲁克——无法度量就无法管理
数据分析流程:
买菜-切菜-炒菜-摆盘-上桌
数据收集-数据整理-数据分析-数据呈现-报告展示 三个幻觉-房价会跌、股票会涨、精通Office
量大数据模型
报告-给人看、无固定规范、由数据源转变而来
数据源-供查询或调用、有严格规范、报告的数据来源
数据源模型规范
同类数据同一页
无合并单元格
单标题
不空行空列
无合计小记
列数据的原子性
一维数据
数字格式正确
数字格式问题
数值-默认靠右、可计算、日期也是数值
文本-默认靠左、不可计算、编号‘+n
逻辑值-居中、一般不计算、TURE、FALSE
错误值-居中、不可计算、#N/A、#DIV/0!
文件类型与特性
xls-兼容格式、容量6W行、慢
xlsx-标准、容量104W行
xlsm-带宏、104W行
xlsb-二进制、104W行、文件小效率高
csv-文本格式、容量仅受文件系统限制
数据分析分类
描述分析、探索分析、验证分析、预测分析
选择适合的图表类型:对比分析、趋势分析、占用分析、关联分析、分布分析
参考正源
www.chinavid.com/clolor
www.webgradients.com
www.fontke.com
www.pixabay.com
www.unsplash.com
www.officeplus.cn
www.islide.cc
www.yanj.cn
数据分析报告-从逻辑内容到视觉呈现
搭建吸引人的演示结构-SCQA
背景、冲突、问题、答案
Situation、Complication、Question、Answer
cyg-dev
commented
3 years ago
一节很不错的Excel、PPT课
何为数据
关键与难点
数据分析的一般步骤
数据存储的挑战
数据处理
数据分析方法
数据建模
方法、工具、可视化(交大-白永乾)
德鲁克——无法度量就无法管理
数据分析流程:
量大数据模型
数据源模型规范
数字格式问题
文件类型与特性
数据分析分类
参考正源
数据分析报告-从逻辑内容到视觉呈现
搭建吸引人的演示结构-SCQA