superhj1987 / ToDo

我的ToDo列表
3 stars 0 forks source link

《机器学习实战》 #9

Open superhj1987 opened 6 years ago

superhj1987 commented 5 years ago

监督学习:分类和回归。需要知道预测什么,即目标变量的分类信息。 无监督学习:无类别信息,也不会给定目标值。聚类和密度估计。

如何选择合适的算法:

  1. 预测目标变量的值选择监督学习,否则选择无监督算法。
  2. 监督学习:目标值是离散型,选择分类算法;目标值是连续型,选择回归算法。
  3. 无监督学习:将数据划分为离散的组,使用聚类算法;还需要估计数据与每个分组的相似程度,使用密度估计算法。

开发机器学习应用程序的步骤:

superhj1987 commented 5 years ago

K近邻分类算法:通过测量不同特征值之间的距离方法进行分类。

  1. 计算已知类别数据集中的点与当前点之间的距离;
  2. 按照距离递增次序排序;
  3. 选取与当前点距离最小的k个点;
  4. 确定前k个点所在类别的出现频率;
  5. 返回前k个点出现频率最高的类别作为当前点的预测分类。

特征归一化:(value - min)/(max-min)

superhj1987 commented 5 years ago

决策树

  1. 信息熵:信息杂乱的程度,熵越高,信息越杂乱。
  2. ID3决策树构造算法: 决策树特征选择以信息增益最高的特征开始,递归分离数据集。如果数据集都为统一分类则终止,如果处理完所有特征仍然有多个分类,则使用多数表决决定该叶子节点的分类。
  3. 使用pickle保存模型
  4. 其他构造决策树的算法还有C4.5和CART
superhj1987 commented 5 years ago

随机选择数据的一部分做为训练集,剩余部分做为测试集的过程称为留存交叉验证(hold-out cross validation)。

朴素贝叶斯

朴素:特征之间是相互独立的

优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感 使用数据类型:标称型数据

superhj1987 commented 5 years ago

逻辑回归: 寻找非线性函数Sigmod的最佳拟合参数,求解过程通过最优化方法(梯度上升/下降、随机梯度上升/下降)完成。

优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 适用数据类型:数值型和标称型数据。

将指数问题对数化是处理数学问题常见的方法

superhj1987 commented 5 years ago

支持向量机(SVM): 序列最小优化算法(SMO)、核函数

优点:泛化错误率低,计算开销不大,结果易解释 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题 使用数据类型:数值型和标称型数据

使用拉格朗日乘子法做最优化解法。

superhj1987 commented 5 years ago

将不同的分类器组合起来,这种组合结果被称为集成方法或者元算法。

superhj1987 commented 5 years ago

Adaboost:

分类器评价指标:

ROC曲线:

AUC越接近1分类器效果越好

superhj1987 commented 5 years ago

线性回归:预测连续值,为了减少欠拟合现象,在方法中引入偏差,可以选择局部加权线性回归,给每一个待预测的点赋予一定的权重。

如果数据的特征比样本点还多可以使用“缩减法”。包括岭回归、Lasso方法、前向逐步回归(一种贪心算法那)。

superhj1987 commented 5 years ago

输入数据和目标值是非线性关系,可以采用树来对预测值分段,包括分段常数(回归树)和分段直线(模型树)。

使用CART算法构建二元树。使用预剪枝和后剪枝防止过拟合的现象。

superhj1987 commented 5 years ago

无监督学习

频繁集项发现算法:

superhj1987 commented 5 years ago
superhj1987 commented 5 years ago

在大数据集上运行机器学习算法。