tomomano / learn-aws-by-coding

コードで学ぶAWS入門
385 stars 38 forks source link

9章での k-fold cross-validation の説明が誤っている #38

Closed msakai closed 2 years ago

msakai commented 2 years ago

「9.9. 並列に複数の Job を実行する」の以下の箇所ですが、 k-fold cross validation では、k個への分割自体は一回行ったら固定で、その使い方の方を変える(1つを検証データにして残りのk-1個を訓練データにしてモデルの評価を行うのをk通り繰り返す)ので、「分割の乱数を変えて」というのは正しくないと思いました。

https://github.com/tomomano/learn-aws-by-coding/blob/d35803e4803d71ed25df7ce6bbcc8ed12f5e25b2/book/aws_batch.adoc

この分割は乱数を固定してランダムに行ったが,もしこの分割によるデータのバイアスを気にするならば,分割の乱数を変えて複数回モデルの評価を行う (k-fold cross-validation) 方法も,より精緻なアプローチとして考えられる.

英語版の方は問題ないと思います。

https://github.com/tomomano/learn-aws-by-coding/blob/d35803e4803d71ed25df7ce6bbcc8ed12f5e25b2/book-en/aws_batch.adoc

However, if you are concerned about the bias of the data due to the split, you may want to evaluate the model multiple times by changing the split (k-fold cross-validation) as a more sophisticated approach.

tomomano commented 2 years ago

@msakai さん

ご指摘どうもありがとうございます. たしかに,ちょっと説明として不明瞭ですね.

"この分割は乱数を固定してランダムに行ったが,もしこの分割によるデータのバイアスを気にするならば,k個の異なる学習・検証データの分割をあらかじめ用意して,複数回モデルの評価を行う (k-fold cross-validation) 方法も,より精緻なアプローチとして考えられる."

というような文章だとより正確に伝わるでしょうか?

tomomano commented 2 years ago

@msakai

修正版の PR つくりました. https://github.com/tomomano/learn-aws-by-coding/pull/40/files

msakai commented 2 years ago

ありがとうございます。その方が正確かつ分かりやすいと思います。

tomomano commented 2 years ago

確認どうもありがとうございます!これでマスターを更新しました。