《机器学习实战》

superhj1987 commented 5 years ago

监督学习：分类和回归。需要知道预测什么，即目标变量的分类信息。无监督学习：无类别信息，也不会给定目标值。聚类和密度估计。

如何选择合适的算法：

预测目标变量的值选择监督学习，否则选择无监督算法。
监督学习：目标值是离散型，选择分类算法；目标值是连续型，选择回归算法。
无监督学习：将数据划分为离散的组，使用聚类算法；还需要估计数据与每个分组的相似程度，使用密度估计算法。

开发机器学习应用程序的步骤：

收集数据
准备输入数据
分析输入数据
训练算法：无监督学习算法可以略过此步
测试算法
使用算法

superhj1987 commented 5 years ago

K近邻分类算法：通过测量不同特征值之间的距离方法进行分类。

计算已知类别数据集中的点与当前点之间的距离；
按照距离递增次序排序；
选取与当前点距离最小的k个点；
确定前k个点所在类别的出现频率；
返回前k个点出现频率最高的类别作为当前点的预测分类。

特征归一化：(value - min)/(max-min）

superhj1987 commented 5 years ago

决策树

信息熵：信息杂乱的程度，熵越高，信息越杂乱。
ID3决策树构造算法：决策树特征选择以信息增益最高的特征开始，递归分离数据集。如果数据集都为统一分类则终止，如果处理完所有特征仍然有多个分类，则使用多数表决决定该叶子节点的分类。
使用pickle保存模型
其他构造决策树的算法还有C4.5和CART

superhj1987 commented 5 years ago

随机选择数据的一部分做为训练集，剩余部分做为测试集的过程称为留存交叉验证（hold-out cross validation）。

朴素贝叶斯

朴素：特征之间是相互独立的

优点：在数据较少的情况下仍然有效，可以处理多类别问题。缺点：对于输入数据的准备方式较为敏感使用数据类型：标称型数据

superhj1987 commented 5 years ago

逻辑回归: 寻找非线性函数Sigmod的最佳拟合参数，求解过程通过最优化方法（梯度上升/下降、随机梯度上升/下降）完成。

优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。适用数据类型：数值型和标称型数据。

将指数问题对数化是处理数学问题常见的方法

superhj1987 commented 5 years ago

支持向量机（SVM）: 序列最小优化算法（SMO）、核函数

优点：泛化错误率低，计算开销不大，结果易解释缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题使用数据类型：数值型和标称型数据

使用拉格朗日乘子法做最优化解法。

superhj1987 commented 5 years ago

将不同的分类器组合起来，这种组合结果被称为集成方法或者元算法。

bagging: 基于数据随机重抽样的分类器构建方法，分类器权重相等。
boosting: 基于所有分类器的加权求和结果。

superhj1987 commented 5 years ago

Adaboost:

单层决策树
多个弱分类器加权求和

分类器评价指标：

正确率：TP/(TP+FP)
召回率/查全率: TP/(TP+FN)

ROC曲线：

横轴：假阳率，FP/(FP+TN）
纵轴：真阳率，TP/ (TP + FN)

AUC越接近1分类器效果越好

superhj1987 commented 5 years ago

线性回归：预测连续值，为了减少欠拟合现象，在方法中引入偏差，可以选择局部加权线性回归，给每一个待预测的点赋予一定的权重。

如果数据的特征比样本点还多可以使用“缩减法”。包括岭回归、Lasso方法、前向逐步回归（一种贪心算法那）。

superhj1987 commented 5 years ago

输入数据和目标值是非线性关系，可以采用树来对预测值分段，包括分段常数（回归树）和分段直线（模型树）。

使用CART算法构建二元树。使用预剪枝和后剪枝防止过拟合的现象。

superhj1987 commented 5 years ago

无监督学习

K均值聚类：以k个随机质心开始，计算每个点到质心的距离，分配到距离最近的质心，再基于新的簇更新质心，重复直到质心不变。
二分K-均值算法：首先将所有点当做一个簇，使用K均值对其划分。迭代对最大误差的簇进行划分，直到k个簇创建成功。

频繁集项发现算法：

Apriori: 非频繁的项其超集肯定也不属于频繁集；某条规则不满足最小可信度要求，那么任何子集也不满足。每次都需要扫描整个数据集，性能较低。
FP-growth: 基于Apriori原则和FP数据结构的频繁集发现算法。只需要扫描两次数据集，速度较快。不能发现关联规则。

superhj1987 commented 5 years ago

使用降维技术简化数据：PCA（主成分分析）、FA（因子分析）、ICA（独立成分分析）。
PCA：一开始选择原始数据方差最大的方向做为新坐标轴，然后选择和第一个坐标轴正交且方差最大的方向做为第二个坐标轴，依次类推直到特征迭代完毕。大部分方差包含在前面的几个坐标轴中，可以忽略其他坐标轴，达到降维处理。
SVD：奇异值分解，矩阵分解的一种类型，一种强大的降维工具。利用SVD的方法称为隐形语义分析(LSA)或者隐形语义索引(LSI)。经常用于推荐系统。在Numpy中linalg提供了svd方法。

superhj1987 commented 5 years ago

在大数据集上运行机器学习算法。

MapReduce: map->reduce使用并行计算提高计算能力。
mrjob：自动化提交MapReduce应用的工具。

superhj1987 / ToDo

《机器学习实战》 #9