A Corpus for Modeling User and Language Effects in Argumentation on Online Debating

Esin Durmus, Claire Cardie https://www.aclweb.org/anthology/P19-1057/

ネット上の議論において、ユーザーの特性(プロフィール)と議論との関係性を分析できるようにするためのコーパスを構築
- これまでのNLP, Computional Socal Science(CSS)は議論そのものを分析することを主眼に置いていた
- 例えばあるユーザーが複数の議論を経て考えを変えた、というような視点の分析は既存のコーパスではできない
- ユーザーの情報が乏しい
- debate.orgからデータセット(コーパス)を構築したのがこの論文
- 2007/10-2017/11の期間の78,736ディベートを収録
- ユーザーのプロフィール情報を含む
  - 学歴、収入、宗教といった背景やどのディベートに勝利・敗北したかの履歴等
データセットについて
- 扱うトピック: 政治・宗教・技術・映画・音楽・旅行などを含む23種類
- ディベートの例: ある議題について賛成側、反対側が意見を述べ、ユーザーはそれぞれに投票する
  - ディベートの前後での支持の変化などを収録
  - 投票は説得力、討論中の行動、引用資料の信頼性、誤字・文法ミスなど多方面から評価
- ディベートに対するコメント606,102件、投票119,210件
- ユーザー情報
- ディベート参加者、投票者のプロフィール 45,348件
  - 年齢、性別、学歴、民族性などの人口統計情報
  - 政治・宗教イデオロギー、収入、職種
  - サイトが定める48のトピックに対するスタンス
何が討論を成功に導くかの分析
- ユーザー属性と言語的特徴、どちらがより優位にディベートに働くのかを調査
- 2値分類問題、ロジスティック回帰モデルで実験、l1, l2正規化、パラメータCも探索
- データ事前処理
- 3以上のターンがあり、1ターンにつき最低20センテンスもののみを集める
- 勝者の決定: 投票者5名以上の結果を多数決で決める。それ以外の結果と同点は除去
- 特徴量の決定
- ユーザープロファイルをone-hotベクトルでエンコードし、コサイン類似度で討論者と聴衆の類似度を得る
- ソーシャルネットワーク
  - ユーザーの討論、投票行動でネットワークを作成
  - グラフの次数、中心、ハブ、authority scoreを計算して特徴とする
- 言語的特徴
  - argument lexicon features (Somasundaran et al, 2007)
  - politeness marks (Danescu-Niculescu-Mizilo et al, 2013)
  - sentiment
  - connotation (Feng and Hirst, 2011)
  - subjectivity (Wilson et al, 2005)
  - modal verbs
  - evidence ("evidence", "show", "according to"を含むフレーズに基づく特徴)
  - …等々
- 結果
- ユーザー特徴単体と言語的特徴単体で比較すると明らかにユーザー特徴単体モデルが高い精度
- 2つを組み合わせることでより高い精度を達成
- social interactionとディベート成功に正の相関が観測された
  - 長くプラットフォームに触れている討論者はよりディベートに勝利しやすい戦略を学習していることを示唆
- 過去に勝利していると次も勝利しやすい
- ユーザー属性の類似性も高い相関
- 一応言語的特徴もベースライン(多数決?)に比べれば予測に寄与している
  - ユーザー属性だけを見て投票が決まるわけではない
さらなる特徴の検討によってより良い分析ができる可能性

knok / acl-2019-reading

A Corpus for Modeling User and Language Effects in Argumentation on Online Debating #121