Open rainylt opened 4 years ago
一直限制attention的输出大小,这是warmup的手法吗?为什么是加在attention后面而不是卷积后面呢?
这和知识蒸馏里面的内容相关,原文有提到为什么用tempeature,知识蒸馏可以看《Distilling the Knowledge in a Neural Network》这篇文章。
您好,请问应该怎么让这个程序跑起来呀
一直限制attention的输出大小,这是warmup的手法吗?为什么是加在attention后面而不是卷积后面呢?