Open lixusign opened 4 years ago
请教下:感觉single_view_loss这部分loss贡献度很少,信息都被multi_view attention的loss贡献了,single_view_loss的意义是类似transformer中的纠偏,防止学的太差?
如果是这样的是不是对attention的信息量很不自信^_^ , 是不是需要加个参数,p q 去控制下loss 的weight更好。
请教下:感觉single_view_loss这部分loss贡献度很少,信息都被multi_view attention的loss贡献了,single_view_loss的意义是类似transformer中的纠偏,防止学的太差?
如果是这样的是不是对attention的信息量很不自信^_^ , 是不是需要加个参数,p q 去控制下loss 的weight更好。