Open yskn67 opened 3 years ago
長い文章の分類において、RNN等のsequentialなモデルをそのまま使うと計算時間がかかったり、勾配が発散してしまう。 これを解決するために、文章をいくつかのチャンクに分けてチャンクごとにDoc2Vecを用いてembeddingした系列を Bi-LSTM with attentionを使い学習/予測するようにした。 チャンクに分けないときよりチャンクを分けて学習/予測する方がF1スコアが良好であることを示した。
とはいえチャンク分けしないのであればBi-LSTM with attentionの恩恵は受けられないので単純な比較対象として 適切なのかについては疑問が残った。 できうるならば、ちゃん区分けせずに単語の系列を入力として用いたり、Related Workに出ていたHierarchical Attention Networkと結果を比較したい。 ただ、長い文章は章や節ごとにトピックが異なることが予測されるので 単一のembeddingよりはチャンクごとにembeddingして重み付け和により着目する部分を決めるべきというのは 直感的には理解できるかなと感じた。
https://arxiv.org/abs/1912.06905
Lulu Wan 1 Michael Seddon 1 George Papageorgiou 1 Mirko Bernardoni 1
1 Clifford Chance LLP
2020/12/14
一言でいうと
長い文章の分類において、RNN等のsequentialなモデルをそのまま使うと計算時間がかかったり、勾配が発散してしまう。 これを解決するために、文章をいくつかのチャンクに分けてチャンクごとにDoc2Vecを用いてembeddingした系列を Bi-LSTM with attentionを使い学習/予測するようにした。 チャンクに分けないときよりチャンクを分けて学習/予測する方がF1スコアが良好であることを示した。
とはいえチャンク分けしないのであればBi-LSTM with attentionの恩恵は受けられないので単純な比較対象として 適切なのかについては疑問が残った。 できうるならば、ちゃん区分けせずに単語の系列を入力として用いたり、Related Workに出ていたHierarchical Attention Networkと結果を比較したい。 ただ、長い文章は章や節ごとにトピックが異なることが予測されるので 単一のembeddingよりはチャンクごとにembeddingして重み付け和により着目する部分を決めるべきというのは 直感的には理解できるかなと感じた。
論文リンク
https://arxiv.org/abs/1912.06905
著者/所属機関
Lulu Wan 1 Michael Seddon 1 George Papageorgiou 1 Mirko Bernardoni 1
1 Clifford Chance LLP
投稿日付(yyyy/MM/dd)
2020/12/14