Using New York Times Picks to Identify Constructive Comments, EMNLP2017

概要

建設的なコメントか否かの分類の話．明示的にラベル付けされたデータがないので，実サービス上で専門家が選定したコメントを利用する． SVMでF1スコア0.84の分類精度を得られた．

Varada Kolhatkar, Maite Taboada

コメントに対して，明示的に建設的か否かのラベル付けされたデータがないので，次のコメントを用いて学習．テストデータはKolhatkarらがクラウドソーシングにて作成．

※ New York Times Picks (NYT Picks)について
NYTでは，ニュース記事に対して読者コメントが寄せられるが，そのコメントの中から，代表となるコメントを専門家が選択して，NYT Picksに掲載される(らしい)

※ Yahoo News Anno-tated Comments Corpusについて
Yahoo!Newsのコメントのスレッド(議論)に対して，建設的な議論か否かのラベル付けがされているデータセット．関連研究参照

SVMやbiLSTMを用いて二値分類を行う．

SVMの素性は

shot

素性組み合わせたSVMが強い．文の長さに関する素性が特徴的で，単体だとTF-IDFに迫るレベルで強いが，他の素性と組み合わせるとF1スコアは下がるらしい． 2018-07-17 17 29 35