Long-length Legal Document Classification

一言でいうと

長い文章の分類において、RNN等のsequentialなモデルをそのまま使うと計算時間がかかったり、勾配が発散してしまう。これを解決するために、文章をいくつかのチャンクに分けてチャンクごとにDoc2Vecを用いてembeddingした系列を Bi-LSTM with attentionを使い学習/予測するようにした。チャンクに分けないときよりチャンクを分けて学習/予測する方がF1スコアが良好であることを示した。

スクリーンショット 2020-10-07 4 09 20

とはいえチャンク分けしないのであればBi-LSTM with attentionの恩恵は受けられないので単純な比較対象として適切なのかについては疑問が残った。できうるならば、ちゃん区分けせずに単語の系列を入力として用いたり、Related Workに出ていたHierarchical Attention Networkと結果を比較したい。ただ、長い文章は章や節ごとにトピックが異なることが予測されるので単一のembeddingよりはチャンクごとにembeddingして重み付け和により着目する部分を決めるべきというのは直感的には理解できるかなと感じた。

論文リンク

https://arxiv.org/abs/1912.06905

著者/所属機関

Lulu Wan 1 Michael Seddon 1 George Papageorgiou 1 Mirko Bernardoni 1

1 Clifford Chance LLP

投稿日付(yyyy/MM/dd)

2020/12/14

yskn67 / reading_papers