Open ymym3412 opened 6 years ago
The Hitchhiker’s Guide to Testing Statistical Significance in Natural Language Processing Rotem Dror Gili Baumer, Segev Shlomov, Roi Reichart
NLP論文において統計的有意性テストがどのように使われているかを調査した
ACL及びTACLの論文に対して調査を実施しているところ
アルゴリズムの比較を行う際に、評価指標での統計的有意差検定を行おうという話。 TACL及びACLの論文を調査したところ有意性検定を行っていない論文が半分近くに上った。 また検定手法に対するTaxonomyも提供
TACLとACL論文の調査
検定をしていても間違った検定手法を用いていることもあり、注意が必要
[1709.09500] Replicability Analysis for Natural Language Processing: Testing Significance with Multiple Datasets Rotem Dror, Gili Baumer, Marina Bogomolov, Roi Reichart
第10回最先端NLP勉強会での資料 https://docs.google.com/presentation/d/1nyqAevSF_NVJuB84O2U0i-wh6RgV1sJKcOOvNmgQRy0/edit#slide=id.p
0. 論文
The Hitchhiker’s Guide to Testing Statistical Significance in Natural Language Processing Rotem Dror Gili Baumer, Segev Shlomov, Roi Reichart
1. どんなもの?
NLP論文において統計的有意性テストがどのように使われているかを調査した
2. 先行研究と比べてどこがすごい?
ACL及びTACLの論文に対して調査を実施しているところ
3. 技術や手法のキモはどこ?
アルゴリズムの比較を行う際に、評価指標での統計的有意差検定を行おうという話。 TACL及びACLの論文を調査したところ有意性検定を行っていない論文が半分近くに上った。 また検定手法に対するTaxonomyも提供
4. どうやって有効だと検証した?
TACLとACL論文の調査
5. 議論はある?
検定をしていても間違った検定手法を用いていることもあり、注意が必要
6. 次に読むべき論文は?
[1709.09500] Replicability Analysis for Natural Language Processing: Testing Significance with Multiple Datasets Rotem Dror, Gili Baumer, Marina Bogomolov, Roi Reichart