issues
search
knok
/
acl-2019-reading
個人的なACL 2019論文読みメモ
0
stars
0
forks
source link
A Corpus for Modeling User and Language Effects in Argumentation on Online Debating
#121
Open
knok
opened
4 years ago
knok
commented
4 years ago
Esin Durmus, Claire Cardie
https://www.aclweb.org/anthology/P19-1057/
ネット上の議論において、ユーザーの特性(プロフィール)と議論との関係性を分析できるようにするためのコーパスを構築
これまでのNLP, Computional Socal Science(CSS)は議論そのものを分析することを主眼に置いていた
例えばあるユーザーが複数の議論を経て考えを変えた、というような視点の分析は既存のコーパスではできない
ユーザーの情報が乏しい
debate.orgからデータセット(コーパス)を構築したのがこの論文
2007/10-2017/11の期間の78,736ディベートを収録
ユーザーのプロフィール情報を含む
学歴、収入、宗教といった背景やどのディベートに勝利・敗北したかの履歴等
データセットについて
扱うトピック: 政治・宗教・技術・映画・音楽・旅行などを含む23種類
ディベートの例: ある議題について賛成側、反対側が意見を述べ、ユーザーはそれぞれに投票する
ディベートの前後での支持の変化などを収録
投票は説得力、討論中の行動、引用資料の信頼性、誤字・文法ミスなど多方面から評価
ディベートに対するコメント606,102件、投票119,210件
ユーザー情報
ディベート参加者、投票者のプロフィール 45,348件
年齢、性別、学歴、民族性などの人口統計情報
政治・宗教イデオロギー、収入、職種
サイトが定める48のトピックに対するスタンス
何が討論を成功に導くかの分析
ユーザー属性と言語的特徴、どちらがより優位にディベートに働くのかを調査
2値分類問題、ロジスティック回帰モデルで実験、l1, l2正規化、パラメータCも探索
データ事前処理
3以上のターンがあり、1ターンにつき最低20センテンスもののみを集める
勝者の決定: 投票者5名以上の結果を多数決で決める。それ以外の結果と同点は除去
特徴量の決定
ユーザープロファイルをone-hotベクトルでエンコードし、コサイン類似度で討論者と聴衆の類似度を得る
ソーシャルネットワーク
ユーザーの討論、投票行動でネットワークを作成
グラフの次数、中心、ハブ、authority scoreを計算して特徴とする
言語的特徴
argument lexicon features (Somasundaran et al, 2007)
politeness marks (Danescu-Niculescu-Mizilo et al, 2013)
sentiment
connotation (Feng and Hirst, 2011)
subjectivity (Wilson et al, 2005)
modal verbs
evidence ("evidence", "show", "according to"を含むフレーズに基づく特徴)
…等々
結果
ユーザー特徴単体と言語的特徴単体で比較すると明らかにユーザー特徴単体モデルが高い精度
2つを組み合わせることでより高い精度を達成
social interactionとディベート成功に正の相関が観測された
長くプラットフォームに触れている討論者はよりディベートに勝利しやすい戦略を学習していることを示唆
過去に勝利していると次も勝利しやすい
ユーザー属性の類似性も高い相関
一応言語的特徴もベースライン(多数決?)に比べれば予測に寄与している
ユーザー属性だけを見て投票が決まるわけではない
さらなる特徴の検討によってより良い分析ができる可能性
Esin Durmus, Claire Cardie https://www.aclweb.org/anthology/P19-1057/