OnizukaLab / ConferenceProceedings

NLP 班論文読み会用のリポジトリ
8 stars 1 forks source link

Combining Character and Word Information in Neural Machine Translation Using a Multi-Level Attention #12

Closed chikurin66 closed 6 years ago

chikurin66 commented 6 years ago

一言でいうと

NMTにおける(サブ)ワードレベルとキャラクターレベルの融合

論文リンク

http://www.aclweb.org/anthology/N18-1116

著者/所属機関

Huadong Chen, Shujian Huang, David Chiang*, Xinyu Dai and Jiajun Chen

State Key Laboratory for Novel Software Technology, Nanjing University *Department of Computer Science and Engineering, University of Notre Dame

概要

細かい粒度の文字のEmbeddingを用いてword representationをよくする. Encoder側もDecoder側もソースサイドの文字列と単語列の情報を使用する. Encoderで文字列情報をembeddingするときに,単語の内側と外側,それぞれの情報を使ってrepresentationを作成する. Encoder側,Decoder側単体でも性能が向上する言語対もあるが,組み合わせると全てを上回る.

新規性・差分

文字だけを使う手法に比べて,シンプルに単語の表現を強化する 文字と単語情報を組み合わせる手法は単語レベルの情報を無視している

手法

image Encoder: character-levelのembeddingとword-levelのembeddingを組み合わせる. Decoder:

結果

image

コメント

少し単純? あまり手法のすごさがわからない