Closed mask-LW closed 2 years ago
请问下论文的公式是不是有点问题? 公式(2)求和下标为n,但没有用到 公式(8)总共的loss,但解释的Lt,ce项基于旋转后的数据作交叉熵,应该是对新数据+旋转数据还是单纯新数据?kD项也只是对旋转后的数据,原来数据没用?但图看起来是都用。
你好,交叉熵损失和知识蒸馏损失都是基于“新数据+旋转数据”,论文中确实写的不清楚,实在抱歉,具体细节可在代码中找到。
请问下论文的公式是不是有点问题? 公式(2)求和下标为n,但没有用到 公式(8)总共的loss,但解释的Lt,ce项基于旋转后的数据作交叉熵,应该是对新数据+旋转数据还是单纯新数据?kD项也只是对旋转后的数据,原来数据没用?但图看起来是都用。