izuna385 / papers

These commits are old ones, including https://github.com/izuna385/papers/wiki . The latest commit is here: https://github.com/izuna385/papers_reading
0 stars 0 forks source link

Sentence-State LSTM for Text Representation #1

Open izuna385 opened 6 years ago

izuna385 commented 6 years ago

https://arxiv.org/abs/1805.02474 双方向LSTM(Bi-LSTM)が持つ問題を、各wordに対してParallel state 状態を保持することで解決しようとした

1.Introduction

bi-directional LSTM自体はもうメジャーになっている Lanuage modelにおいて、かつてSOTAを達成したことがあるくらいにメジャーである。

しかし、問題点もある、というより、Bi-LSTMが持つ限界点が指摘されつつある computational bottleneck (Vaswani Attention is all you need) 加えて、localなn-gram自体をモデルに明示的に組み込むこともされていない。

sequential information flow leads to relatively weaker power in capturing long- range dependencies, which results in lower perfor- mance in encoding longer sentences

この論文では、上の困難を解決しようとした メインアイデアはFigure 1に示されている通り。

1文全体を1状態と捉えるということ、ただし、sub stateとしてindividual wordとoverrall sentence-level stateからなるsub-stateを考えている

loaclな状態と非localな状態を反映するために、各状態は系列を読んでいくごとにupdateされる 結局の所、Sentense-state-LSTM である。しかも、Bi-LSTMと違って、3-6stepのみで効率的な文章エンコーディングを行うことができる!

各reccurent stepの後に、情報交換が、文章内の連続する単語間でなされる initial stateの状態から、各ステップを踏んで、3,5,7グラムの前後の状態をそのwordは獲得する。 しかも、文書分類のタスクでは、global sentence-level representatiionとしてそれを用いることも可能である。(なぜ?)

2.Related works

で、これまでの外観を述べている Bidirectorial LSTMとCNNがこれまでの主流だよという話で、最近だとAttentionもあるよね、といっている

Hieralchical stacking of CNN layersの話も出ている S-LSTMはhierarchical attention とstacked CNNと似ている、なぜなら、interaction between non-local components in a sentence via incremental levels of abstraction が存在するので。しかし、S-LSTMはこれらと異なり、reccurent状態で文章構造をエンコードするという点で異なっている。

3 Model

スライドを参照すること

izuna385 commented 6 years ago

_2018-06-26 sentence state LSTM.pdf