Closed yuekaizhang closed 4 years ago
现在加上了 encoder 部分的self-attention
替换了decoder部分的attention
decoder部分的local attention mask还没Push
我目前在decoder最后一层加了hard mask 在grid上跑
hard mask是指?参数不是可学习的么
现在加上了 encoder 部分的self-attention
替换了decoder部分的attention
decoder部分的local attention mask还没Push
我目前在decoder最后一层加了hard mask 在grid上跑