Open hiroto0227 opened 3 years ago
Neural Networkは入力にセンシティブなため、入力のスケールを合わせる必要がある。 -> 単純にlog1pをとってあげる。
ベンチマークに使用しているデータセットが比較的小規模なため、学習しきれていないか、overfitしている。 -> 入力に対してガウシアンノイズを加えて、Data Argumentを行う。
一般の全結合層では情報が十分に伝わらないが、LTRのNNでは全結合層を使用していることが多い。 -> multi-head-self-attentionを使用することで、複雑なネットワーク構造にしている。
Appendix BでどのLossがLTRに最適化を議論している。 Pointwise Loss, Pairwise Loss, Listwise Loss の3つの種類から8つのロスを比較している。 Listwise Lossが高い傾向にあり、その中でもどのデータセットに対しても安定して高いスコアとなる & シンプルなSoftmax Cross Entropyを採用としている。
https://openreview.net/forum?id=Ut1vF_q_vC 2021年 Google