Open yangshao opened 4 years ago
现在distill阶段使用的是固定的speed和epochs, 而且没有做early stopping. 对于不同的数据集, 如何确定这些超参数,已经如何选取最终的模型?
现在distill阶段使用的是固定的speed和epochs, 而且没有做early stopping. 对于不同的数据集, 如何确定这些超参数,已经如何选取最终的模型?