JiaxiangBU / tutoring2

The collection of Python and R code scripts to tutor others.
https://jiaxiangbu.github.io/tutoring2/
Other
8 stars 7 forks source link

stacking notes #20

Closed JiaxiangBU closed 4 years ago

JiaxiangBU commented 4 years ago

10.2 stacking https://jiaxiangbu.github.io/learn_kaggle/learning_notes.html

在训练阶段,第一层模型,只要保证一个样本不被两层训练即可

JiaxiangBU commented 4 years ago

1、第一层的模型个数,

没有要求。

2、第二层模型能用集成模型吗,

最好不。参考华泰证券的研究报告,我回头发你看下。

3、判断融合模型是否过拟合,

正常的判断,训练集和测试集的评价指标

4、第一层模型调参

至少kfold的交叉验证。

JiaxiangBU commented 4 years ago

模型原理、样本分离都是可以处理的方式,更直接的是在 stacking 的时候使用,证明各个预测值相关性低。 这个可以查看华泰证券这篇研究报告,在之前凤凰金融我们用到过。

林晓明, 陈烨, and 李子钰. 2018. 人工智能选股之stacking集成学习. 华泰证券股份有限公司.

具体地见,https://jiaxiangbu.github.io/phoenix-finance/output/fcontest_output30.html

https://github.com/JiaxiangBU/tutoring/issues/54

JiaxiangBU commented 4 years ago

https://www.kaggle.com/lijiaxiang/stacking 这个我开源了。

JiaxiangBU commented 4 years ago

k-fold https://jiaxiangbu.github.io/learn_kaggle/learning_notes.html#k-fold 6 K-Fold

JiaxiangBU commented 4 years ago

https://jiaxiangbu.github.io/learn_fe/target_encoding_learning_notes.html#%E6%80%BB%E7%BB%93 stacking 的思路和 target encoding 非常类似,我这里举了一个例子,不正确的做 target encoding ,会把一个随机变量弄显著。

JiaxiangBU commented 4 years ago

https://jiaxiangbu.github.io/learn_fe/target_encoding_learning_notes.html#%E6%80%BB%E7%BB%93 stacking 的思路和 target encoding 非常类似,我这里举了一个例子,不正确的做 target encoding ,会把一个随机变量弄显著。

JiaxiangBU commented 4 years ago

@Ricardo627721141 上次跟你说的 stacking 处理方式有些出入,正确的理解是 同一个训练集不要重复使用,是指的是不要再两层,同一层可以重复调用。 https://www.kaggle.com/lijiaxiang/stacking 这是一个 demo。