Open yskn67 opened 4 years ago
NLPタスクにおける評価方法に関する論文。 よく行われているHold outによる評価ではなく、ソフトウェア開発で使われるbehavioral testing(aka black-box test)による評価を行ったもの。 機能ごとにテストケースを作成し、出力を評価している。 ユニットテストのような入力と出力のペアを確認するものに加え、摂動を加えたときに不偏であるか、想定外の変化を起こさないかを確認している。 テストケースの作成にはテンプレートとLMやWordNetを使ったサジェストを使うことで大量に作成する提案をしている。 これにより、そのタスクに関して詳しくない人の2倍以上のテストケースを作成でき、約3倍のバグを発見できている。
https://www.aclweb.org/anthology/2020.acl-main.442/
Marco Tulio Ribeiro 1 Tongshuang Wu 2 Carlos Guestrin 2 Sameer Singh 3
1 Microsoft Research 2 University of Washington 3 University of California, Irvine
2020
一言でいうと
NLPタスクにおける評価方法に関する論文。 よく行われているHold outによる評価ではなく、ソフトウェア開発で使われるbehavioral testing(aka black-box test)による評価を行ったもの。 機能ごとにテストケースを作成し、出力を評価している。 ユニットテストのような入力と出力のペアを確認するものに加え、摂動を加えたときに不偏であるか、想定外の変化を起こさないかを確認している。 テストケースの作成にはテンプレートとLMやWordNetを使ったサジェストを使うことで大量に作成する提案をしている。 これにより、そのタスクに関して詳しくない人の2倍以上のテストケースを作成でき、約3倍のバグを発見できている。
論文リンク
https://www.aclweb.org/anthology/2020.acl-main.442/
著者/所属機関
Marco Tulio Ribeiro 1 Tongshuang Wu 2 Carlos Guestrin 2 Sameer Singh 3
1 Microsoft Research 2 University of Washington 3 University of California, Irvine
投稿日付(yyyy/MM/dd)
2020