Supervised Learning of Universal Sentence Representations from Natural Language Inference Data, Conneau+, EMNLP'17

AkihikoWatanabe commented 6 years ago

slide: https://www.slideshare.net/naoakiokazaki/supervised-learning-of-universal-sentence-representations-from-natural-language-inference-data

AkihikoWatanabe commented 6 years ago

汎用的な文のエンコーダができました！という話。

SNLIデータでパラメータ学習、エンコーダ構成スライド図中右側のエンコーダ部分をなるべく一般的な文に適用できるように学習したい。

色々なタスクで、文のエンコーダ構成を比較した結果、bi-directional LSTMでエンコードし、要素ごとの最大値をとる手法が最も良いという結果。隠れ層の次元は4096とかそのくらい。 Skip-Thoughtは学習に1ヶ月くらいかかるけど、提案手法はより少ないデータで1日くらいで学習終わり、様々なタスクで精度が良い。

ベクトルの要素積、concat, subなど、様々な演算を施し、学習しているので、そのような構成の元から文エンコーダを学習すると何か意味的なものがとれている？ SNLIはNatural Language Inferenceには文の意味理解が必須なので、そのデータ使って学習するといい感じに文のエンコードができます。

NLIのデータは色々なところで有用なので、日本語のNLIのデータとかも欲しい。

AkihikoWatanabe / paper_notes

Supervised Learning of Universal Sentence Representations from Natural Language Inference Data, Conneau+, EMNLP'17 #71