Open superhj1987 opened 6 years ago
K近邻分类算法:通过测量不同特征值之间的距离方法进行分类。
特征归一化:(value - min)/(max-min)
决策树
随机选择数据的一部分做为训练集,剩余部分做为测试集的过程称为留存交叉验证(hold-out cross validation)。
朴素贝叶斯
朴素:特征之间是相互独立的
优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感 使用数据类型:标称型数据
逻辑回归: 寻找非线性函数Sigmod的最佳拟合参数,求解过程通过最优化方法(梯度上升/下降、随机梯度上升/下降)完成。
优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 适用数据类型:数值型和标称型数据。
将指数问题对数化是处理数学问题常见的方法
支持向量机(SVM): 序列最小优化算法(SMO)、核函数
优点:泛化错误率低,计算开销不大,结果易解释 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题 使用数据类型:数值型和标称型数据
使用拉格朗日乘子法做最优化解法。
将不同的分类器组合起来,这种组合结果被称为集成方法或者元算法。
Adaboost:
分类器评价指标:
ROC曲线:
AUC越接近1分类器效果越好
线性回归:预测连续值,为了减少欠拟合现象,在方法中引入偏差,可以选择局部加权线性回归,给每一个待预测的点赋予一定的权重。
如果数据的特征比样本点还多可以使用“缩减法”。包括岭回归、Lasso方法、前向逐步回归(一种贪心算法那)。
输入数据和目标值是非线性关系,可以采用树来对预测值分段,包括分段常数(回归树)和分段直线(模型树)。
使用CART算法构建二元树。使用预剪枝和后剪枝防止过拟合的现象。
无监督学习
频繁集项发现算法:
在大数据集上运行机器学习算法。
监督学习:分类和回归。需要知道预测什么,即目标变量的分类信息。 无监督学习:无类别信息,也不会给定目标值。聚类和密度估计。
如何选择合适的算法:
开发机器学习应用程序的步骤: