wittyResry / myIssue

My issue mark down^_^ 欢迎吐槽,讨论~~
https://github.com/wittyResry/myIssue/issues
The Unlicense
5 stars 1 forks source link

随机森林算法 #111

Open wittyResry opened 4 years ago

wittyResry commented 4 years ago

是什么?

随机森林(RF)是一种统计学习理论,它是利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终的预测结果。随机森林具有很高的预测准确率,对异常值和噪声具有很好的容忍度且不容易出现过拟合,因此在有着广泛的应用。

基本原理

image

随机森林分类(RFC)是由很多决策树分类模型{h(X,Θk),k=1,…}组成的组合分类模型,且参数集{Θk}是独立同分布的随机向量,在给定自变量X下,每个决策树分类模型都由一票投票权来选择最优的分类结果。RFC的基本思想是:首先,利用bootstrap抽样从原始训练集中抽取k个样本,且每个样本的样本容量都与原始训练集一样;其次,对k个样本分别建立k个决策树模型,得到k种分类结果;最后,根据k种分类结果对每个记录进行投票决定其最终分类

RF通过构造不同的训练集增加分类模型间的差异,从而提高组合分类模型的外推预测能力。通过k轮训练,得到一个分类模型序列{h1(X),h2(X),…,hk(X)},再用它们构成一个多分类模型系统,该系统的最终分类结果采用简单多数投票: image

随机森林的OOB(Out Of Bag)