https://arxiv.org/abs/1805.02474 双方向LSTM（Bi-LSTM）が持つ問題を、各wordに対してParallel state 状態を保持することで解決しようとした

1.Introduction

bi-directional LSTM自体はもうメジャーになっている Lanuage modelにおいて、かつてSOTAを達成したことがあるくらいにメジャーである。

しかし、問題点もある、というより、Bi-LSTMが持つ限界点が指摘されつつある computational bottleneck (Vaswani Attention is all you need) 加えて、localなn-gram自体をモデルに明示的に組み込むこともされていない。

sequential information flow leads to relatively weaker power in capturing long- range dependencies, which results in lower perfor- mance in encoding longer sentences

この論文では、上の困難を解決しようとしたメインアイデアはFigure 1に示されている通り。

1文全体を1状態と捉えるということ、ただし、sub stateとしてindividual wordとoverrall sentence-level stateからなるsub-stateを考えている

loaclな状態と非localな状態を反映するために、各状態は系列を読んでいくごとにupdateされる結局の所、Sentense-state-LSTM　である。しかも、Bi-LSTMと違って、3-6stepのみで効率的な文章エンコーディングを行うことができる！

各reccurent stepの後に、情報交換が、文章内の連続する単語間でなされる initial stateの状態から、各ステップを踏んで、3,5,7グラムの前後の状態をそのwordは獲得する。しかも、文書分類のタスクでは、global sentence-level representatiionとしてそれを用いることも可能である。（なぜ？）

2.Related works

で、これまでの外観を述べている Bidirectorial LSTMとCNNがこれまでの主流だよという話で、最近だとAttentionもあるよね、といっている

Hieralchical stacking of CNN layersの話も出ている S-LSTMはhierarchical attention とstacked CNNと似ている、なぜなら、interaction between non-local components in a sentence via incremental levels of abstraction が存在するので。しかし、S-LSTMはこれらと異なり、reccurent状態で文章構造をエンコードするという点で異なっている。

3 Model

スライドを参照すること

izuna385 / papers

Sentence-State LSTM for Text Representation #1

1.Introduction

2.Related works

3 Model