AkihikoWatanabe commented 5 months ago

URL

https://arxiv.org/abs/2109.06835
Affiliations
- Marzena Karpinska, N/A
- Nader Akoury, N/A
- Mohit Iyyer, N/A
  Abstract
- Recent text generation research has increasingly focused on open-endeddomains such as story and poetry generation. Because models built for suchtasks are difficult to evaluate automatically, most researchers in the spacejustify their modeling choices by collecting crowdsourced human judgments oftext quality (e.g., Likert scores of coherence or grammaticality) from AmazonMechanical Turk (AMT). In this paper, we first conduct a survey of 45open-ended text generation papers and find that the vast majority of them failto report crucial details about their AMT tasks, hindering reproducibility. Wethen run a series of story evaluation experiments with both AMT workers andEnglish teachers and discover that even with strict qualification filters, AMTworkers (unlike teachers) fail to distinguish between model-generated text andhuman-generated references. We show that AMT worker judgments improve when theyare shown model-generated output alongside human-generated references, whichenables the workers to better calibrate their ratings. Finally, interviews withthe English teachers provide deeper insights into the challenges of theevaluation process, particularly when rating model-generated text.
  Translation (by gpt-3.5-turbo)
最近のテキスト生成の研究は、物語や詩の生成などのオープンエンドのドメインに注力してきています。このようなタスクに向けられたモデルは自動的に評価することが難しいため、この分野のほとんどの研究者は、テキストの品質（例えば、一貫性や文法のLikertスコア）に関するクラウドソーシングされた人間の判断（Amazon Mechanical Turk（AMT）から）を収集することで、モデリングの選択を正当化しています。本論文では、まず45のオープンエンドのテキスト生成論文の調査を行い、そのほとんどがAMTタスクに関する重要な詳細を報告しておらず、再現性が妨げられていることを発見しました。その後、AMTの労働者と英語教師を対象とした一連の物語評価実験を実施し、厳格な資格フィルターを使用しても、AMTの労働者（教師とは異なり）はモデル生成のテキストと人間による参照テキストを区別することができないことを発見しました。また、AMTの労働者の判断は、モデル生成の出力と人間による参照テキストを併せて表示することで改善され、労働者が評価をより適切に調整することができることを示しました。最後に、英語教師とのインタビューでは、特にモデル生成のテキストを評価する際の課題について、より深い洞察が得られました。
Summary (by gpt-3.5-turbo)
最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。

AkihikoWatanabe commented 5 months ago

Open-endedなタスクに対するAMTの評価の再現性に関する研究。先行研究をSurveyしたところ、再現のために重要な情報（たとえば、workerの資格、費用、task descriptions、annotator間のagreementなど）が欠落していることが判明した。続いて、expertsとAMT workerに対して、story generationの評価を実施し、GPT2が生成したストーリーと人間が生成したストーリーを、後者のスコアが高くなることを期待して依頼した。その結果

AMTのratingは、モデルが生成したテキストと、人間が生成したテキストをreliableに区別できない
同一のタスクを異なる日程で実施をすると、高い分散が生じた
多くのAMT workerは、評価対象のテキストを注意深く読んでいない
Expertでさえモデルが生成したテキストを読み判断するのには苦戦をし、先行研究と比較してより多くの時間を費やし、agreementが低くなることが分かった

AkihikoWatanabe commented 5 months ago

892 において、低品質なwork forceが人手評価に対して有害な影響を与える、という文脈で本研究が引用されている

AkihikoWatanabe / paper_notes

The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N/A, EMNLP'21 #1306

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)

892 において、低品質なwork forceが人手評価に対して有害な影響を与える、という文脈で本研究が引用されている