Kart.yaml 알고리즘 선택 질문

gail 부분만 지우고 cmd를 통해 학습을 진행했습니다.

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ behaviors: ArcadeDriver: trainer_type: ppo hyperparameters: batch_size: 256 buffer_size: 2048 learning_rate: 0.0003 beta: 0.01 epsilon: 0.2 lambd: 0.95 num_epoch: 3 learning_rate_schedule: linear network_settings: normalize: false hidden_units: 128 num_layers: 2 vis_encode_type: simple reward_signals: extrinsic: gamma: 0.99 strength: 1.0 network_settings: normalize: False hidden_units: 128 num_layers: 2 vis_encode_type: simple memory: None goal_conditioning_type: hyper deterministic: False init_path: None keep_checkpoints: 5 checkpoint_interval: 500000 max_steps: 500000 time_horizon: 64 summary_freq: 50000 threaded: False self_play: None

behavioral_cloning:
  demo_path: C:\envs\Kart_Windows\KART_Data\Demonstrations/Kart.demo
  steps: 0
  strength: 0.3
  samples_per_update: 0

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ (+ 위 코드가 bc부분은 제대로 나오는데 그 위 부분들은 작성할 떄는 정상적으로 들여쓰기가 다 돼있는데, Update comment 하고 나면 들어쓰기가 다 풀려있네요.)

Gail 알고리즘이 포함됐을 때는 텐서보드에 gail이 떴는데 gail만 지우고 하니 ppo인지 bc인지 뜨지가 않습니다.

뭔가 잘 못 사용하는 것 같은데 이거 맞나요? 어떤 알고리즘으로 학습되고 있는건지 모르겠네요.

training type이 ppo이긴 한데 저기는 gail이 있을 때도 그대로 였어서 그럼 여태까지 ppo 알고리즘 이였냐고 하면 텐서보드엔 gail로 떠서...

reinforcement-learning-kr / Unity_ML_Agents_2.0

Kart.yaml 알고리즘 선택 질문 #66