AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
17 stars 0 forks source link

The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N/A, EMNLP'21 #1306

Open AkihikoWatanabe opened 5 months ago

AkihikoWatanabe commented 5 months ago

URL

AkihikoWatanabe commented 5 months ago

Open-endedなタスクに対するAMTの評価の再現性に関する研究。先行研究をSurveyしたところ、再現のために重要な情報(たとえば、workerの資格、費用、task descriptions、annotator間のagreementなど)が欠落していることが判明した。 続いて、expertsとAMT workerに対して、story generationの評価を実施し、GPT2が生成したストーリーと人間が生成したストーリーを、後者のスコアが高くなることを期待して依頼した。その結果

AkihikoWatanabe commented 5 months ago

892 において、低品質なwork forceが人手評価に対して有害な影響を与える、という文脈で本研究が引用されている