Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

一言でいうと

NLPタスクにおける評価方法に関する論文。よく行われているHold outによる評価ではなく、ソフトウェア開発で使われるbehavioral testing(aka black-box test)による評価を行ったもの。機能ごとにテストケースを作成し、出力を評価している。ユニットテストのような入力と出力のペアを確認するものに加え、摂動を加えたときに不偏であるか、想定外の変化を起こさないかを確認している。テストケースの作成にはテンプレートとLMやWordNetを使ったサジェストを使うことで大量に作成する提案をしている。これにより、そのタスクに関して詳しくない人の2倍以上のテストケースを作成でき、約3倍のバグを発見できている。

論文リンク

https://www.aclweb.org/anthology/2020.acl-main.442/

著者/所属機関

Marco Tulio Ribeiro 1 Tongshuang Wu 2 Carlos Guestrin 2 Sameer Singh 3

1 Microsoft Research 2 University of Washington 3 University of California, Irvine

投稿日付(yyyy/MM/dd)

2020

yskn67 / reading_papers

Beyond Accuracy: Behavioral Testing of NLP Models with CheckList #18

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)