magicpieh28 / Paper-Summary

1 stars 0 forks source link

Convolutional Recurrent Deep Learning Model for Sentence Classification(2018) #3

Open magicpieh28 opened 6 years ago

magicpieh28 commented 6 years ago

about this paper

Author : Abdalraouf Hassan, Ausif Mahmood Link : https://ieeexplore.ieee.org/document/8314136/?part=1

what are problems they want to solve?

problems

CNNはConvolutional LayerーPooling Layerのの関係のせいで、Long termの依存性をわかるためには、幾つのConvolutional Layerを重ねてモデルを作らないといけない。 特に、多くのCNNーRNNのコンビネーションモデルの場合、多層Pooling Layerを適用しているが、これがローカル情報のdetailを失う主な理由となる。

how to solve

model architecture

短い文章でのセメンティック分析を行うモデルを提案する。 CNNのインプットはWord Embeddingで、これは教師なし学習でtrainされたニューラル言語モデルによって初期化する。CNNによって抽出されたローカル特徴をRNN(教師なし)のインプットとする。 detailのlossを防ぐため、Pooling Layerの代わりにLSTMの単層レイヤー(Recurrent Layer)を使う。Pooling Layerをなくすことで、LSTMレイヤーにおいてのパラメタ数を小さくすることが出来る。 (単層Convolutional Layerはドキュメントの最も重要な特徴を抽出することに使う)

左が従来のモデルで、右が本論文の提案モデル。 alt

experiment

dataset

IMDB:1つのレビューは1つ以上の文章を持つ SSTb:1つのレビューは1文章のみを持つ

setting

ランダムに混ぜたmini-batchをSGDで訓練 word2vecを利用しWord Embedding(CBoW、skip-gramアーキテクチャ) cross entropyのlossを最小化するか、negative log尤度を最小化するかでモデルを訓練

result

SSTb: RNTN手法、matrix-vetcor-RNNモデル、fine-grained分類タスクと比較し精度が上がった。 似たようなモデルを用いた先行研究より精度は下がったが、先行研究の方がハイパーパラメータ数やレイヤー数はもっと多かったのでいいとは言えない。

classを2つにした時 alt

classを5つにした時 alt

IMDB:

alt

conclusion

CNNモデルのレイヤー数を減らしても精度が上回った。 特に、sub-word情報を掴むことと、アーキテクチャのパラメータを減らすことに成功した。

what's next

convolutional neural networks for sentence classification http://www.aclweb.org/anthology/D14-1181

character-level convolutional networks for text classification https://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classification.pdf

Efficient Character-level Document Classification by Combining Convolution and Recurrent Layers https://arxiv.org/pdf/1602.00367v1.pdf