Open 406747925 opened 5 years ago
Hey could you explain to me the process for knowledge distillation? Do I run the images through the teacher network and the student network in parallel and then determine the loss based on that? If so do I pre-train the teacher network on the data or do I use pre-trained weights (like imagenet)? Are the weights frozen during this process?
@406747925 ,请问您最好的复现精度是多少?我也是L2 loss到了一定值就下不去了,cfp_fp acc在95%左右。
你好,我使用keras重新写了模型并进行训练,使用insightface的resnet100模型作为teacher提取特征,使用softmax-交叉熵 和embedding 的 L2 loss,交叉熵loss大约在12左右,L2 loss在0.0038,所以我把L2 loss *2000,训练10epoch ,但是L2 loss下降很慢,只下降到0.0028。
请问你们训练的时候要训练多少个epoch,收敛到何种程度,知识蒸馏部分loss的权重,学习率等怎么设置呢
您好,请问您当时如何写这部分代码的啊,我用angular distill loss 去蒸馏 teacher 和 student, loss几乎一直不变,不知道是哪里出了问题,想跟您请教下
你好,我使用keras重新写了模型并进行训练,使用insightface的resnet100模型作为teacher提取特征,使用softmax-交叉熵 和embedding 的 L2 loss,交叉熵loss大约在12左右,L2 loss在0.0038,所以我把L2 loss *2000,训练10epoch ,但是L2 loss下降很慢,只下降到0.0028。
请问你们训练的时候要训练多少个epoch,收敛到何种程度,知识蒸馏部分loss的权重,学习率等怎么设置呢