对比学习实现的疑问

您好，我这里有三处疑虑希望跟您讨论交流。

文章中使用了Attention作为长期兴趣的编码器，LSTM+Attention作为短期兴趣的编码器，然而，他们的输入，都是等长的全历史序列。那么，Attention和LSTM+Attention这两个模块是如何体现所谓的对长期和短期的偏好的呢？还是说这种偏好是通过对比学习实现的？
文章中使用了Attention对全历史序列提取长期兴趣，用全历史序列的平均池化作为长期兴趣的代理。然而，我认为这个实现可能会使得Attention失效：因为可能存在平凡解——当Attention Score全部相等，且转换矩阵W为Identity的时候。您在实验中是否观察到这个问题？
这里的代理任务的设计，会不会使得长短期兴趣的编码能力最终退化到对长短期序列的平均池化的能力一致？

tsinghua-fib-lab / CLSR