@inproceedings{Peters2018DeepCW,
author={Peters, Matthew E. and Neumann, Mark and Iyyer, Mohit and Gardner, Matt and Clark, Christopher and Lee, Kenton and Zettlemoyer, Luke},
title={Deep contextualized word representations},
booktitle={Proc. of NAACL},
year={2018}
}
title
Deep contextualized word representations
notes
与之前使用词的上下文来建模词向量不同,本文使用一个在大规模语料上训练的双向语言模型来生成词向量。就用一个多层双向LSTM的每层的输出进行拼接,得到当前输出的hidden state,作为当前输入词的向量表示。在拼接各层LSTM隐状态输出时,不同层有不同参数,我们使用一个可学习的参数来根据任务不同自动适应不同的层权重。 在下游任务时,首先pretrain这个双向LM,然后使用双向LM的输出与原始的词向量进行拼接作为输入,然后再任务的RNN的输出上再次拼接双向LM的输出,去做最后的任务,效果均比baseline明显好。
bibtex
@inproceedings{Peters2018DeepCW, author={Peters, Matthew E. and Neumann, Mark and Iyyer, Mohit and Gardner, Matt and Clark, Christopher and Lee, Kenton and Zettlemoyer, Luke}, title={Deep contextualized word representations}, booktitle={Proc. of NAACL}, year={2018} }
link
http://www.aclweb.org/anthology/N18-1202
publication
NAACL 2018 long accepted, best paper
open source
https://allennlp.org/elmo
affiliated
Allen Institute for Artificial Intelligence