yandexdataschool / satellite-collision-avoidance

RL for optimal satellite collision avoidance maneuvres
25 stars 7 forks source link

Новый baseline #83

Closed bamasa closed 6 years ago

bamasa commented 6 years ago

Интересно получается: Генерируем среду с несколькими опасными ситуациями. Обучение baseline, который уклоняется от объектов мусора по-очереди:

  1. смотрит на первое столкновение, учит маневр, уклоняется
  2. смотрит на второе столкновение, учит маневр, уклоняется. при этом включен штраф за отклонение от траектории, так что уклоняется от второй опасной ситуации так, что возвращается примерно на исходную орбиту. После возвращения первая ситуация вновь становится опасной =) (хотя и не настолько уже)
  3. смотрит на первое столкновение, учит маневр, уклоняется ...

цикл не бесконечный, но тем не менее случается что от одной ситуации приходится несколько раз уворачиваться.

P.S. При одном объекте мусора baseline работает как обычно (так и ожидалось)

вопросы:

bamasa commented 6 years ago
Start training.

Initial action table:
[]
Initial Reward: -2258.8459168562795

iteration: 1/1
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 205.37it/s]
Current epoch: 6601.021197169036
Collision information:
    Debris name: DEBRIS4;
    Collision epoch: 6601.060225 (mjd2000);
    Distance: 466.71446878376224 (meters);
    Probability: 0.004985162329410042.
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 175.08it/s]
Current epoch: 6601.026267229448
Collision information:
    Debris name: DEBRIS2;
    Collision epoch: 6601.14335314794 (mjd2000);
    Distance: 383.2006145841105 (meters);
    Probability: 0.003111719800405846.
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 305.75it/s]
Current epoch: 6601.026268229449
Collision information:
    Debris name: DEBRIS4;
    Collision epoch: 6601.060225221447 (mjd2000);
    Distance: 755.7609083380986 (meters);
    Probability: 0.0005815220733687291.
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 168.98it/s]
Current epoch: 6601.104325230668
Collision information:
    Debris name: DEBRIS2;
    Collision epoch: 6601.143356201858 (mjd2000);
    Distance: 1552.4987634253862 (meters);
    Probability: 3.0081641777683977e-08.

Training completed in 2.3879 sec.
Total Reward: -12.731431355792807
Action Table:
[[ 0.00000000e+00  0.00000000e+00  0.00000000e+00  2.11961690e-02]
 [-2.51012148e-01 -1.53286312e-01  7.29628162e-02  1.00000000e-06]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  5.06906041e-03]
 [-4.34987486e-02  8.95277998e-02 -1.71951283e-02  1.00000000e-06]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  0.00000000e+00]
 [ 4.11789779e-03 -9.78802611e-02  2.46076798e-02  1.00000000e-06]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  7.80560012e-02]
 [ 4.10983908e-03 -9.78803248e-02  2.46087737e-02  1.00000000e-06]]
kazeevn commented 6 years ago

Оставлять точно не надо, такая схема маневрирования нереалистична.