SEQ3 : Differentiable Sequence-to-Sequence-to-Sequence Autoencoder for Unsupervised Abstractive Sentence Compression

short summary

wordを離散潜在変数とした、seq2seqが２つ連なった機構であるsequence-to-sequence-to-sequence autoencoder(seq3)を提案し、教師なしabstract翻訳に適用。

architecture

まずxを入力としてCompressorで要約文yを生成し、Reconstructorでyからxを復元する。 yを得るとき、通常だとカテゴリカル分布からサンプリングする必要があるので、微分不可能な処理となる。そこで、gumbel softmaxを用いて、サンプリングを近似する。

ただし、これはあくまで複数の単語のembeddingの重み付き和なので、実際の単語と１対１対応はしていない。そのため、StraightThrough estimator (https://arxiv.org/pdf/1308.3432.pdf) を用いて、forward時はeをargmaxをとって離散化するが、backward時にはgumbel-softmaxを用いて勾配を計算する。この手法はforward時とbackward時に乖離があるが、実際うまくいく。

loss

上２つがSEQ3の一般的なロスで、下２つが要約特化のロス。

reconstruction loss
- 元の文を再現できるかのロス
LM prior loss
- summary yが文としてreadableになるように、LSTMベースの言語モデルを用いる。言語モデルの出力する確率分布と、Compressorが出力する確率分布のKLダイバージェンスをロスとする。
topic loss
- 入力xと要約yが同じトピックを持つように、tf-idfで重み付けしたxとyのembeddingのコサイン類似度をロスとしてとる。
length penalty
- yの出力長Mを超える出力についてEOSとの間でロスをとる。

結果

Gigaword sentence compression datasetでの検証で他の教師なし手法を上回った。また、出力例では、文頭が入力と一緒のものが多かったが、これは、各出力単語はその前の単語に依存するため、最初で間違えると全部間違えてしまうことから、Compressorが入力の文頭をコピーするように学習したと考えられる。

author

Christos Baziotis1,2 , Ion Androutsopoulos2 , Ioannis Konstas3 , Alexandros Potamianos1 1 School of ECE, National Technical University of Athens, Athens, Greece 2 Department of Informatics, Athens University of Economics and Business, Athens, Greece 3 Interaction Lab, School of Math. and Comp. Sciences, Heriot-Watt University, Edinburgh, UK cbaziotis@mail.ntua.gr, ion@aueb.gr i.konstas@hw.ac.uk, potam@central.ntua.gr

URL

https://arxiv.org/pdf/1904.03651.pdf

year

NAACL2019

kacky24 / papers