关于CAMV模块的疑问

您好，感谢您杰出的工作。我想请问一下在CAMV模块中attn_md经过tl.tenalg.mode_dot（）函数计算之后是不是得到(B, 1, mm_size, mm_size)的attention map，以及为什么要使用torch.softmax(dim=1)，这似乎将attn_md变成了全为1.的tensor？