Open tm4roon opened 4 years ago
ニューラル翻訳モデル・言語モデルにおけるembedding layerのパラメータを圧縮しようという試み。 従来のembedding layerでは、512次元や768次元などのパラメータが選択されていたが、提案しているDEFINEでは、1層目で64次元などの少ない次元を選択し、その後それよりも高い次元へと拡張していく。結果として、モデルの性能を損なうことなく、モデルのパラメータを削減することに成功。
DEFINE: Deep Factorized Input Token Embeddings for Neural Sequence Modeling
ニューラル翻訳モデル・言語モデルにおけるembedding layerのパラメータを圧縮しようという試み。 従来のembedding layerでは、512次元や768次元などのパラメータが選択されていたが、提案しているDEFINEでは、1層目で64次元などの少ない次元を選択し、その後それよりも高い次元へと拡張していく。結果として、モデルの性能を損なうことなく、モデルのパラメータを削減することに成功。
文献情報