huangyangyu / NoiseFace

Noise-Tolerant Paradigm for Training Face Recognition CNNs [Official, CVPR 2019]
https://arxiv.org/pdf/1903.10357.pdf
MIT License
136 stars 23 forks source link

Question on weighting method 2 #10

Open david-di opened 4 years ago

david-di commented 4 years ago

同志们,感谢你们的思路和论文。 内容有点长,直接来中文吧,我的英文能力不能保证我所写即所思。

请教下施加权重的第二种方法,我可能理解上出现了问题,麻烦指教下哪里有错误。以下都是我的理解,任何地方有错误麻烦指出,谢啦。

以第三阶段为例,我们想让模型更多的关注中间难度的部分,所以把高斯分布的均值设在中间难度段,这样中间段得到的权重更大。

在第一种施加权重方法中,很显然,更大的权重获得更大的loss,这样更关注权重大的那些样本。

但是第二种方法中,正如论文中提到的,实际是在改变参数s。在我的认知中,减小s是在增大学习难度,其实就是减小了softmax后的label项的分类概率,等价于增大了此样本的loss。我的疑惑就在这里,施加权重后,越小的权重导致越小的s,进而导致越大的loss。那么,岂不是权重小的反而loss被增大的更多?和原本的意图正好是相反的。我觉得我哪里推理出了问题,麻烦指点下,还是我误解了你们的本意。

另外,第二种方法,不同难度的样本对同样的权重值改变量反应强度不同。对于简单样本,由于w=1时的loss非常低,w的减小(假设高斯分布施加的w小于1)会导致loss极大地相对增大;对于难例,这种相对增大比较缓和。对不同难度的样本,比较其loss重要性的相对变化,此现象可能导致这种变化的比较出现“数值欺骗”,尤其是当侧重点在简单样本时。