Closed kaigelee closed 1 year ago
我并没有试过这个,但我直观感觉只更新decoder没有同时更新encoder和decoder好。
我并没有试过这个,但我直观感觉只更新decoder没有同时更新encoder和decoder好。
感谢您的回复。还想问一下您,关于特征扰动可以带来半监督的性能增益,这个背后更加直观的解释是什么呢?如果通俗来讲的话?
比较正经的解释:强扰动(无论是特征上的还是图像上的)可以缓解对噪声标签的过拟合,也可以使得分类器的决策边界落在密度较低的空间上.....(还有很多解释)
通俗的解释:我们先用干净的样本(没有被强扰动)产生伪标签,如果这时候我们还是用这些干净的样本去学习这些本来已经预测出来的伪标签的话,那其实是没有什么额外的信息增益的。就像我们本来已经会写了一道题,自己给出了答案,这时候如果再去用这个答案来监督我们再做一遍这个题,那其实是没有什么帮助的,本来对的还是对,错的还是错。 相反,如果我们对样本(图像/特征)进行了强扰动之后再去拟合之前的伪标签,那这时候对于模型来说就产生了一些挑战,就可以去探索一些新的比较鲁棒的知识/特征。就像我们做了一道题给出答案后,我们可以让另一个人对这道题进行一些变形(类比于强扰动)后再给我们做,如果还能给出之前的答案(类比于伪标签),那就说明我们真的会这道题了。
比较正经的解释:强扰动(无论是特征上的还是图像上的)可以缓解对噪声标签的过拟合,也可以使得分类器的决策边界落在密度较低的空间上.....(还有很多解释)
通俗的解释:我们先用干净的样本(没有被强扰动)产生伪标签,如果这时候我们还是用这些干净的样本去学习这些本来已经预测出来的伪标签的话,那其实是没有什么额外的信息增益的。就像我们本来已经会写了一道题,自己给出了答案,这时候如果再去用这个答案来监督我们再做一遍这个题,那其实是没有什么帮助的,本来对的还是对,错的还是错。 相反,如果我们对样本(图像/特征)进行了强扰动之后再去拟合之前的伪标签,那这时候对于模型来说就产生了一些挑战,就可以去探索一些新的比较鲁棒的知识/特征。就像我们做了一道题给出答案后,我们可以让另一个人对这道题进行一些变形(类比于强扰动)后再给我们做,如果还能给出之前的答案(类比于伪标签),那就说明我们真的会这道题了。
感谢回答,我消化一下。 还有一个方向上的问题,就是在大模型横行霸道的时代,研究半监督或者无监督跨域 语义分割 还有实际或者研究意义吗? 我现在在做UDA 分割。。有点点迷茫。 如果能加个联系方式就更好了,我目前是北航的一名研究生。
抱歉,我也很难回答这个问题...不确定大模型未来会做到何种程度
看您关于特征扰动的实现是在原始特征上drop后与原始特征cat起来输入解码器,也就是说,这样计算得到的损失会同时更新编码器+解码器。
作者有试过将drop的特征detach,然后直接输入到解码器吗?这样drop特征输入只训练解码器,也就是梯度只经过解码器。