Closed YuTian315 closed 2 years ago
感谢您的提问! 你是对的,一般而言确实是先进行K-fold split,然后再根据每个fold进行feature selection,由于tadpole数据集的特征缺失较多,所以我们先通过特征选择去掉了一部分无用特征,然后再去筛选可用数据。 根据您的建议,我们后面会增加这部分实验并update相关代码和结果
此外,我们对各个模型的验证都是基于我们特征选择后这个固定的数据集和特征进行的。 有关cross validation 和 feature selection的更多讨论可参考下面: https://stats.stackexchange.com/questions/27750/feature-selection-and-cross-validation
为什么拿一折的train_idx进行特征选择后的256维特征,最后拿去进行5折交叉实验呢?不应该是每折实验都进行一次特征选择吗?