Characterizing Online Discussion Using Coarse Discourse Sequences, Zhang+, ICWSM'17, (Reddit Coarse Discourse data)

RedditのDiscussion Forumに9種類のDiscourse Actsを付与したデータ。

データを作成する際は、以下の処理を適用：

Google Big Query dump のRedditデータ238Mスレッド
それにReply Filterをかけ87.5Mスレッド
さらにそこからスレッドサンプリングやヒューリスティクなフィルタをかけて10000スレッドに絞り込んだ
これらにDiscourse Actsが付与されており、それぞれのコメントに対して9種類のカテゴリ（QUESTION（質問）, ANSWER（回答）, ANNOUNCEMENT（情報発信）, AGREEMENT（意見に対する同意, APPRECIATION （感謝）など）が付与されている。

コーパスを作成するときは、3人のアノテータを用い、複数のACTを付与することを許し、OTHERも許容。 Discourse Actsをどれだけ判定できるかのモデルも構築しており、loggistic regression + L2 regularization, Hidden Markov Model, Conditional Random Fieldsなどを用い、素性はContent-based (unigram, bigram, tf-idfなど), Structure-based (treeのdepth, # of sentencde, wordなど), Author-based (一番最初の投稿者と同じか、親と同じ投稿者かなど), Community (subreddit name (カテゴリ名))などを用いている。

CRFを適用する際は、スレッドのTreeのブランチを系列とみなす。基本的にCRFが一番よく、F値で0.75程度。

AkihikoWatanabe / paper_notes

Characterizing Online Discussion Using Coarse Discourse Sequences, Zhang+, ICWSM'17, (Reddit Coarse Discourse data) #244