yskn67 / reading_papers

reading papers memorandum
MIT License
1 stars 0 forks source link

Beyond Accuracy: Behavioral Testing of NLP Models with CheckList #18

Open yskn67 opened 4 years ago

yskn67 commented 4 years ago

一言でいうと

NLPタスクにおける評価方法に関する論文。 よく行われているHold outによる評価ではなく、ソフトウェア開発で使われるbehavioral testing(aka black-box test)による評価を行ったもの。 機能ごとにテストケースを作成し、出力を評価している。 ユニットテストのような入力と出力のペアを確認するものに加え、摂動を加えたときに不偏であるか、想定外の変化を起こさないかを確認している。 テストケースの作成にはテンプレートとLMやWordNetを使ったサジェストを使うことで大量に作成する提案をしている。 これにより、そのタスクに関して詳しくない人の2倍以上のテストケースを作成でき、約3倍のバグを発見できている。

論文リンク

https://www.aclweb.org/anthology/2020.acl-main.442/

著者/所属機関

Marco Tulio Ribeiro 1 Tongshuang Wu 2 Carlos Guestrin 2 Sameer Singh 3

1 Microsoft Research 2 University of Washington 3 University of California, Irvine

投稿日付(yyyy/MM/dd)

2020