DEFINE: Deep Factorized Input Token Embeddings for Neural Sequence Modeling

ニューラル翻訳モデル・言語モデルにおけるembedding layerのパラメータを圧縮しようという試み。従来のembedding layerでは、512次元や768次元などのパラメータが選択されていたが、提案しているDEFINEでは、1層目で64次元などの少ない次元を選択し、その後それよりも高い次元へと拡張していく。結果として、モデルの性能を損なうことなく、モデルのパラメータを削減することに成功。