tm4roon / survey

Survey on machine learning.
14 stars 1 forks source link

Show Your Work: Improved Reporting of Experimental Results #89

Open tm4roon opened 4 years ago

tm4roon commented 4 years ago

Show Your Work: Improved Reporting of Experimental Results

自然言語処理タスクにおけるモデルの評価は、事前に分割されたテストデータを用いて行われているが、手法の良し悪しの判断を行うにあたって、テストデータに対するスコアだけでは不十分であると主張している (計算環境によって結論は変わりうる、と述べている)。

ここでは、新たな評価方法 Expected validation performanceを提案している。具体的には、ハイパーパラメータの探索回数n回の条件下で、ベストなvalidation スコアを与えるパラメータ設定のモデルにおけるvalidationスコア分布Vn*の期待値を求める。

これによって、計算環境に応じて実験の結論が変わりうることを示した。

文献情報

tm4roon commented 4 years ago

チェックリスト

実験結果の再現性を保つためのチェックリスト。

tm4roon commented 4 years ago

解説記事

tm4roon commented 4 years ago

コード