kacky24 / papers

my publications and short summaries of papers I have read
3 stars 1 forks source link

SEQ3 : Differentiable Sequence-to-Sequence-to-Sequence Autoencoder for Unsupervised Abstractive Sentence Compression #57

Open kacky24 opened 5 years ago

kacky24 commented 5 years ago

short summary

wordを離散潜在変数とした、seq2seqが2つ連なった機構であるsequence-to-sequence-to-sequence autoencoder(seq3)を提案し、教師なしabstract翻訳に適用。

スクリーンショット 2019-05-04 0 35 48

architecture

スクリーンショット 2019-05-04 1 23 08

まずxを入力としてCompressorで要約文yを生成し、Reconstructorでyからxを復元する。 yを得るとき、通常だとカテゴリカル分布からサンプリングする必要があるので、微分不可能な処理となる。そこで、gumbel softmaxを用いて、サンプリングを近似する。

スクリーンショット 2019-05-04 1 09 25

ただし、これはあくまで複数の単語のembeddingの重み付き和なので、実際の単語と1対1対応はしていない。そのため、StraightThrough estimator (https://arxiv.org/pdf/1308.3432.pdf) を用いて、forward時はeをargmaxをとって離散化するが、backward時にはgumbel-softmaxを用いて勾配を計算する。この手法はforward時とbackward時に乖離があるが、実際うまくいく。

loss

上2つがSEQ3の一般的なロスで、下2つが要約特化のロス。

結果

スクリーンショット 2019-05-04 1 42 35

Gigaword sentence compression datasetでの検証で他の教師なし手法を上回った。 また、出力例では、文頭が入力と一緒のものが多かったが、これは、各出力単語はその前の単語に依存するため、最初で間違えると全部間違えてしまうことから、Compressorが入力の文頭をコピーするように学習したと考えられる。

author

Christos Baziotis1,2 , Ion Androutsopoulos2 , Ioannis Konstas3 , Alexandros Potamianos1 1 School of ECE, National Technical University of Athens, Athens, Greece 2 Department of Informatics, Athens University of Economics and Business, Athens, Greece 3 Interaction Lab, School of Math. and Comp. Sciences, Heriot-Watt University, Edinburgh, UK cbaziotis@mail.ntua.gr, ion@aueb.gr i.konstas@hw.ac.uk, potam@central.ntua.gr

URL

https://arxiv.org/pdf/1904.03651.pdf

year

NAACL2019