Closed bamasa closed 6 years ago
Start training.
Initial action table:
[]
Initial Reward: -2258.8459168562795
iteration: 1/1
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 205.37it/s]
Current epoch: 6601.021197169036
Collision information:
Debris name: DEBRIS4;
Collision epoch: 6601.060225 (mjd2000);
Distance: 466.71446878376224 (meters);
Probability: 0.004985162329410042.
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 175.08it/s]
Current epoch: 6601.026267229448
Collision information:
Debris name: DEBRIS2;
Collision epoch: 6601.14335314794 (mjd2000);
Distance: 383.2006145841105 (meters);
Probability: 0.003111719800405846.
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 305.75it/s]
Current epoch: 6601.026268229449
Collision information:
Debris name: DEBRIS4;
Collision epoch: 6601.060225221447 (mjd2000);
Distance: 755.7609083380986 (meters);
Probability: 0.0005815220733687291.
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 168.98it/s]
Current epoch: 6601.104325230668
Collision information:
Debris name: DEBRIS2;
Collision epoch: 6601.143356201858 (mjd2000);
Distance: 1552.4987634253862 (meters);
Probability: 3.0081641777683977e-08.
Training completed in 2.3879 sec.
Total Reward: -12.731431355792807
Action Table:
[[ 0.00000000e+00 0.00000000e+00 0.00000000e+00 2.11961690e-02]
[-2.51012148e-01 -1.53286312e-01 7.29628162e-02 1.00000000e-06]
[ 0.00000000e+00 0.00000000e+00 0.00000000e+00 5.06906041e-03]
[-4.34987486e-02 8.95277998e-02 -1.71951283e-02 1.00000000e-06]
[ 0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00]
[ 4.11789779e-03 -9.78802611e-02 2.46076798e-02 1.00000000e-06]
[ 0.00000000e+00 0.00000000e+00 0.00000000e+00 7.80560012e-02]
[ 4.10983908e-03 -9.78803248e-02 2.46087737e-02 1.00000000e-06]]
Оставлять точно не надо, такая схема маневрирования нереалистична.
Интересно получается: Генерируем среду с несколькими опасными ситуациями. Обучение baseline, который уклоняется от объектов мусора по-очереди:
цикл не бесконечный, но тем не менее случается что от одной ситуации приходится несколько раз уворачиваться.
P.S. При одном объекте мусора baseline работает как обычно (так и ожидалось)
вопросы: