tm4roon / survey

Survey on machine learning.
14 stars 1 forks source link

Large Scale Question Paraphrase Retrieval with Smoothed Deep Metric Learning #90

Open tm4roon opened 4 years ago

tm4roon commented 4 years ago

Large Scale Question Paraphrase Retrieval with Smoothed Deep Metric Learning

Question Paraphrase Retrieval(QPR) taskにおいて、従来の損失関数Triplet loss(TR)ではノイズデータの影響を受けやすい傾向にあった。ここでは、ノイズデータの影響を小さくするため、Smoothed Deep Metric Learning(SMDL)を提案している。

モデルの概略図は以下の通りで、CNNベースのEncoderでクエリ文を低次元のベクトル空間に変換したのち、kNNを用いてクエリ文に類似した候補を抽出する。

従来の損失関数TRでは、anchor question (q^a)とpositive example(q^p)の距離を最小化しつつ、anchor question (q^a)とnegative example(q^p)の距離を最大化するように学習を行っていた。

しかし、この損失関数ではノイズデータ(e.g. false-negativeのデータ)影響を受けやすい。そこで、以下のような新しい損失関数SMDLを定義する。この損失関数により、TRによる学習に比べ性能を改善できることを示した。

文献情報