Open yskn67 opened 4 years ago
システム図 EncoderはCNN -> Global Max Pooling -> Denseのような形 出現回数が低い単語はhash trickを使ってrandom projection
hash trick https://arxiv.org/abs/0902.2206 CNNとRNNの比較 https://arxiv.org/abs/1702.01923 データセットの作り方 https://www.aclweb.org/anthology/P18-1206/
一言でいうと
Quoraなどの質問投稿サイトにおける類似質問を検索するシステムの提案 類似質問のペアからmetric learningする想定 実システムだとすべてのペアを網羅できるわけではないのでfalse positiveなデータが学習セットに含まれる この影響を弱めるためにtriplet lossの代わりにsmoothed deep metric lossを提案 triplet lossと比較して複数のデータセットに対してoutperform
SGNSのようなloss
論文リンク
https://www.aclweb.org/anthology/D19-5509.pdf
著者/所属機関
Daniele Bonadiman(University of Trento) Anjishnu Kumar(Amazon Alexa) Arpit Mittal(Amazon Alexa)
投稿日付(yyyy/MM/dd)
2019
概要
新規性・差分
手法
結果
コメント