しかし、問題点もある、というより、Bi-LSTMが持つ限界点が指摘されつつある
computational bottleneck (Vaswani Attention is all you need)
加えて、localなn-gram自体をモデルに明示的に組み込むこともされていない。
sequential information flow leads to relatively weaker power in capturing long- range dependencies, which results in lower perfor- mance in encoding longer sentences
Hieralchical stacking of CNN layersの話も出ている
S-LSTMはhierarchical attention とstacked CNNと似ている、なぜなら、interaction between non-local components in a sentence via incremental levels of abstraction
が存在するので。しかし、S-LSTMはこれらと異なり、reccurent状態で文章構造をエンコードするという点で異なっている。
https://arxiv.org/abs/1805.02474 双方向LSTM(Bi-LSTM)が持つ問題を、各wordに対してParallel state 状態を保持することで解決しようとした
1.Introduction
bi-directional LSTM自体はもうメジャーになっている Lanuage modelにおいて、かつてSOTAを達成したことがあるくらいにメジャーである。
しかし、問題点もある、というより、Bi-LSTMが持つ限界点が指摘されつつある computational bottleneck (Vaswani Attention is all you need) 加えて、localなn-gram自体をモデルに明示的に組み込むこともされていない。
sequential information flow leads to relatively weaker power in capturing long- range dependencies, which results in lower perfor- mance in encoding longer sentences
この論文では、上の困難を解決しようとした メインアイデアはFigure 1に示されている通り。
1文全体を1状態と捉えるということ、ただし、sub stateとしてindividual wordとoverrall sentence-level stateからなるsub-stateを考えている
loaclな状態と非localな状態を反映するために、各状態は系列を読んでいくごとにupdateされる 結局の所、Sentense-state-LSTM である。しかも、Bi-LSTMと違って、3-6stepのみで効率的な文章エンコーディングを行うことができる!
各reccurent stepの後に、情報交換が、文章内の連続する単語間でなされる initial stateの状態から、各ステップを踏んで、3,5,7グラムの前後の状態をそのwordは獲得する。 しかも、文書分類のタスクでは、global sentence-level representatiionとしてそれを用いることも可能である。(なぜ?)
2.Related works
で、これまでの外観を述べている Bidirectorial LSTMとCNNがこれまでの主流だよという話で、最近だとAttentionもあるよね、といっている
Hieralchical stacking of CNN layersの話も出ている S-LSTMはhierarchical attention とstacked CNNと似ている、なぜなら、interaction between non-local components in a sentence via incremental levels of abstraction が存在するので。しかし、S-LSTMはこれらと異なり、reccurent状態で文章構造をエンコードするという点で異なっている。
3 Model
スライドを参照すること