AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
17 stars 0 forks source link

Characterizing Online Discussion Using Coarse Discourse Sequences, Zhang+, ICWSM'17, (Reddit Coarse Discourse data) #244

Open AkihikoWatanabe opened 6 years ago

AkihikoWatanabe commented 6 years ago

https://github.com/google-research-datasets/coarse-discourse

AkihikoWatanabe commented 6 years ago

RedditのDiscussion Forumに9種類のDiscourse Actsを付与したデータ。

データを作成する際は、以下の処理を適用:

コーパスを作成するときは、3人のアノテータを用い、複数のACTを付与することを許し、OTHERも許容。 Discourse Actsをどれだけ判定できるかのモデルも構築しており、loggistic regression + L2 regularization, Hidden Markov Model, Conditional Random Fieldsなどを用い、素性はContent-based (unigram, bigram, tf-idfなど), Structure-based (treeのdepth, # of sentencde, wordなど), Author-based (一番最初の投稿者と同じか、親と同じ投稿者かなど), Community (subreddit name (カテゴリ名))などを用いている。

CRFを適用する際は、スレッドのTreeのブランチを系列とみなす。基本的にCRFが一番よく、F値で0.75程度。