Conference : NeurIPS 2020
Link : https://arxiv.org/pdf/2002.09437.pdfAuthors' Affiliation : University of Oxford
TL;DR : focal loss 써서 학습하면 모델이 잘 calibrated됨
Summary :
3 What Causes Miscalibration
even when the classification error is 0, the NLL can be positive, and the optimisation algorithm can still try to reduce it to 0 by further increasing the value of pˆi,yi for each sample
lr decay한 직후부터 average test NLL이 증가하기 시작하는데, 이는 모두 incorrectly classified samples의 평균 NLL이 높아지기 때문이다. 정답인 샘플들의 NLL은 lr decay 이후에도 계속 떨어진다. 또한 lr decay한 이후에는 평균 ECE도 오르는데, 이는 네트워크가 miscalibrated 되기 시작한다는 뜻이다.
miscalibration 과 NLL overfitting은 연결되어 있다.
또한 entropy가 정답과 오답 모두에서 lr decay이후 감소하는데, 틀린 것에서조차 떨어진다는건 자신의 잘못된 예측에 대해서도 더 confident하게 된다는걸 의미한다.
cross entropy 로스가 0이 되는건 logit이 무한대가 되어야 가능하므로 tendency of weight magnification을 근본적으로 야기한다. weight decay가 거의 항상 accuracy를 증가시키는건 이것 때문일지도 모른다.
Conference : NeurIPS 2020 Link : https://arxiv.org/pdf/2002.09437.pdf Authors' Affiliation : University of Oxford TL;DR : focal loss 써서 학습하면 모델이 잘 calibrated됨
Summary :
3 What Causes Miscalibration
even when the classification error is 0, the NLL can be positive, and the optimisation algorithm can still try to reduce it to 0 by further increasing the value of pˆi,yi for each sample
lr decay한 직후부터 average test NLL이 증가하기 시작하는데, 이는 모두 incorrectly classified samples의 평균 NLL이 높아지기 때문이다. 정답인 샘플들의 NLL은 lr decay 이후에도 계속 떨어진다. 또한 lr decay한 이후에는 평균 ECE도 오르는데, 이는 네트워크가 miscalibrated 되기 시작한다는 뜻이다.
miscalibration 과 NLL overfitting은 연결되어 있다.
또한 entropy가 정답과 오답 모두에서 lr decay이후 감소하는데, 틀린 것에서조차 떨어진다는건 자신의 잘못된 예측에 대해서도 더 confident하게 된다는걸 의미한다.
cross entropy 로스가 0이 되는건 logit이 무한대가 되어야 가능하므로 tendency of weight magnification을 근본적으로 야기한다. weight decay가 거의 항상 accuracy를 증가시키는건 이것 때문일지도 모른다.
4 Improving Calibration using Focal Loss
$L = - (1 - \hat{p}_{i, yi})^\gamma \log \hat{p}{i, y_i}$
gamma는 hyperparameter
if pˆi,yi ∈ [0, 0.2), then γ = 5, otherwise γ = 3 (note that g(0.2, 5) ≈ 1 and g(0.25, 3) ≈ 1