Question on weighting method 2

同志们，感谢你们的思路和论文。内容有点长，直接来中文吧，我的英文能力不能保证我所写即所思。

请教下施加权重的第二种方法，我可能理解上出现了问题，麻烦指教下哪里有错误。以下都是我的理解，任何地方有错误麻烦指出，谢啦。

以第三阶段为例，我们想让模型更多的关注中间难度的部分，所以把高斯分布的均值设在中间难度段，这样中间段得到的权重更大。

在第一种施加权重方法中，很显然，更大的权重获得更大的loss，这样更关注权重大的那些样本。

但是第二种方法中，正如论文中提到的，实际是在改变参数s。在我的认知中，减小s是在增大学习难度，其实就是减小了softmax后的label项的分类概率，等价于增大了此样本的loss。我的疑惑就在这里，施加权重后，越小的权重导致越小的s，进而导致越大的loss。那么，岂不是权重小的反而loss被增大的更多？和原本的意图正好是相反的。我觉得我哪里推理出了问题，麻烦指点下，还是我误解了你们的本意。

另外，第二种方法，不同难度的样本对同样的权重值改变量反应强度不同。对于简单样本，由于w=1时的loss非常低，w的减小(假设高斯分布施加的w小于1)会导致loss极大地相对增大；对于难例，这种相对增大比较缓和。对不同难度的样本，比较其loss重要性的相对变化，此现象可能导致这种变化的比较出现“数值欺骗”，尤其是当侧重点在简单样本时。

huangyangyu / NoiseFace

Question on weighting method 2 #10