random forest是弱决策模型。 所谓弱决策, 就是集中很多意见,不论意见的可信度到底如何。正所谓三个臭皮匠顶一个诸葛亮,在很多情况下你会发现它的表现可能比一个专家的意见更有效。
为什么random forest有如此奇效呢?
根据the law of large numbers, 如果尝试次数足够大,那么答案会趋于稳定值(回想大家都知道的扔硬币实验)。假设我们的每一个子集classifier都只能达到51%的正确率,但我们说不定能指望majority class的正确率达到75%!然而这个前提是每一个类别都毫无关系,不产生correlated errors。但我们都很清楚这不太可能,因为我们使用的是相同的一组数据,那么训练结果必然会产生一些相似的误差,从而降低准确率。
random forest的流程【 拿majority vote(hard voting)举例】: training set里分出来很多子集,每一个子集都单独训练。最后取投票(vote)最多的那个子集的结果。
random forest简介
random forest是目前非常流行的一种机器学习模型。
random forest是弱决策模型。 所谓弱决策, 就是集中很多意见,不论意见的可信度到底如何。正所谓三个臭皮匠顶一个诸葛亮,在很多情况下你会发现它的表现可能比一个专家的意见更有效。
为什么random forest有如此奇效呢? 根据the law of large numbers, 如果尝试次数足够大,那么答案会趋于稳定值(回想大家都知道的扔硬币实验)。假设我们的每一个子集classifier都只能达到51%的正确率,但我们说不定能指望majority class的正确率达到75%!然而这个前提是每一个类别都毫无关系,不产生correlated errors。但我们都很清楚这不太可能,因为我们使用的是相同的一组数据,那么训练结果必然会产生一些相似的误差,从而降低准确率。
random forest的流程【 拿majority vote(hard voting)举例】: training set里分出来很多子集,每一个子集都单独训练。最后取投票(vote)最多的那个子集的结果。
与hard voting相对的soft voting soft voting相对与hard voting会给有信心的决策(highly confident votes)更多权重(weights),正确率也会相对提高。
random forest中涉及到的术语: ensemble:a group of predictors (上面例子中的乌合之众)
在机器学习中,ensemble的意思大概分两种,一是algorithm,比如说我们使用同一组数据,用不同方法来跑。或者反过来,只用一种方法,但把数据分为很多组,单独训练。最后把所有结果集中起来。虽然单独的子集训练结果bias是比拿所有数据来训练要高的(抽样误差),然而最后通过这种方式bias和variance都可以同时被降低。
7