Open AkihikoWatanabe opened 6 years ago
RedditのDiscussion Forumに9種類のDiscourse Actsを付与したデータ。
データを作成する際は、以下の処理を適用:
コーパスを作成するときは、3人のアノテータを用い、複数のACTを付与することを許し、OTHERも許容。 Discourse Actsをどれだけ判定できるかのモデルも構築しており、loggistic regression + L2 regularization, Hidden Markov Model, Conditional Random Fieldsなどを用い、素性はContent-based (unigram, bigram, tf-idfなど), Structure-based (treeのdepth, # of sentencde, wordなど), Author-based (一番最初の投稿者と同じか、親と同じ投稿者かなど), Community (subreddit name (カテゴリ名))などを用いている。
CRFを適用する際は、スレッドのTreeのブランチを系列とみなす。基本的にCRFが一番よく、F値で0.75程度。
https://github.com/google-research-datasets/coarse-discourse