「強化学習を用いたマリオの訓練」の訓練後の動作

unknown-yuser commented 3 years ago

Pytorchのチュートリアルの日本語訳を見て勉強しております。大変感謝しています。

強化学習を用いたマリオの訓練を見たのですが、一つ確認したいことがございます。

"訓練後の動作を動画で確認" で記憶と学習を実行していますが、ここは機械学習でいう「テストフェーズ」に相当するので実行しなくても良いのかと考えているのですが、如何でしょうか。

よろしくお願いします。

YutaroOgawa commented 3 years ago

@ham-rally さま

ご質問をありがとうございます。

完全におっしゃる通りです。そして、むしろ、訓練した結果を確認したいのに、確認時にさらに訓練が行われては、ネットワークが確認中に変化するので、良くありません。

一方で、今回はチュートリアルのコードなので、最後の可視化だけ、記憶と学習の命令を消したり、コメントアウトすると、

初心者の方にとってはそれはそれで、「なぜ上の部分とコードが違うのだろう・・・」と混乱を招くことを危惧しました。

そのため、元のチュートリアル（英語）に変更を加えず、元のコード（訓練有）にそのまま可視化だけを追記しています。

ですが、訓練後のテストや検証として動作を確認する場合、正しくは　@ham-rally さまのおっしゃる通り、

"訓練後の動作を動画で確認" で記憶と学習を実行していますが、ここは機械学習でいう「テストフェーズ」に相当するので実行しなくても良いのかと考えている

が、本当は正しい行為です。

貴重なご質問をありがとうございます。

unknown-yuser commented 3 years ago

@YutaroOgawa さま

ご回答頂きありがとうございます。

初心者の方にとってはそれはそれで、「なぜ上の部分とコードが違うのだろう・・・」と混乱を招くことを危惧しました。

この理由からコードに差分を出さないためにオリジナルのソースコードを再利用する方針にしたこと、理解しました！

YutaroOgawa commented 3 years ago

@ham-rally さま

ありがとうございます。今後とも、どうぞ宜しくお願い致します。

YutaroOgawa / pytorch_tutorials_jp