about this paper

Author : Abdalraouf Hassan, Ausif Mahmood Link : https://ieeexplore.ieee.org/document/8314136/?part=1

what are problems they want to solve?

problems

CNNはConvolutional LayerーPooling Layerのの関係のせいで、Long termの依存性をわかるためには、幾つのConvolutional Layerを重ねてモデルを作らないといけない。特に、多くのCNNーRNNのコンビネーションモデルの場合、多層Pooling Layerを適用しているが、これがローカル情報のdetailを失う主な理由となる。

how to solve

model architecture

短い文章でのセメンティック分析を行うモデルを提案する。 CNNのインプットはWord Embeddingで、これは教師なし学習でtrainされたニューラル言語モデルによって初期化する。CNNによって抽出されたローカル特徴をRNN（教師なし）のインプットとする。 detailのlossを防ぐため、Pooling Layerの代わりにLSTMの単層レイヤー（Recurrent Layer）を使う。Pooling Layerをなくすことで、LSTMレイヤーにおいてのパラメタ数を小さくすることが出来る。（単層Convolutional Layerはドキュメントの最も重要な特徴を抽出することに使う）

左が従来のモデルで、右が本論文の提案モデル。 alt

experiment

dataset

IMDB：１つのレビューは１つ以上の文章を持つ SSTb：１つのレビューは１文章のみを持つ

setting

ランダムに混ぜたmini-batchをSGDで訓練 word2vecを利用しWord Embedding（CBoW、skip-gramアーキテクチャ） cross entropyのlossを最小化するか、negative log尤度を最小化するかでモデルを訓練

result

SSTb： RNTN手法、matrix-vetcor-RNNモデル、fine-grained分類タスクと比較し精度が上がった。似たようなモデルを用いた先行研究より精度は下がったが、先行研究の方がハイパーパラメータ数やレイヤー数はもっと多かったのでいいとは言えない。

classを２つにした時 alt

classを５つにした時 alt

IMDB：

alt

conclusion

CNNモデルのレイヤー数を減らしても精度が上回った。特に、sub-word情報を掴むことと、アーキテクチャのパラメータを減らすことに成功した。

what's next

convolutional neural networks for sentence classification http://www.aclweb.org/anthology/D14-1181

character-level convolutional networks for text classification https://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classification.pdf

Efficient Character-level Document Classification by Combining Convolution and Recurrent Layers https://arxiv.org/pdf/1602.00367v1.pdf

magicpieh28 / Paper-Summary

Convolutional Recurrent Deep Learning Model for Sentence Classification(2018) #3