Новый baseline - Githubissues

bamasa commented 6 years ago

Интересно получается: Генерируем среду с несколькими опасными ситуациями. Обучение baseline, который уклоняется от объектов мусора по-очереди:

смотрит на первое столкновение, учит маневр, уклоняется
смотрит на второе столкновение, учит маневр, уклоняется. при этом включен штраф за отклонение от траектории, так что уклоняется от второй опасной ситуации так, что возвращается примерно на исходную орбиту. После возвращения первая ситуация вновь становится опасной =) (хотя и не настолько уже)
смотрит на первое столкновение, учит маневр, уклоняется ...

цикл не бесконечный, но тем не менее случается что от одной ситуации приходится несколько раз уворачиваться.

P.S. При одном объекте мусора baseline работает как обычно (так и ожидалось)

вопросы:

какие есть идеи (самое простое что можно сделать, это можно ограничить маневры: только поднимать или только опускать орбиту)
стоит ли это оставить для презентации? (baseline явно не справляется и возможно что это хорошо)

bamasa commented 6 years ago

Start training.

Initial action table:
[]
Initial Reward: -2258.8459168562795

iteration: 1/1
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 205.37it/s]
Current epoch: 6601.021197169036
Collision information:
    Debris name: DEBRIS4;
    Collision epoch: 6601.060225 (mjd2000);
    Distance: 466.71446878376224 (meters);
    Probability: 0.004985162329410042.
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 175.08it/s]
Current epoch: 6601.026267229448
Collision information:
    Debris name: DEBRIS2;
    Collision epoch: 6601.14335314794 (mjd2000);
    Distance: 383.2006145841105 (meters);
    Probability: 0.003111719800405846.
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 305.75it/s]
Current epoch: 6601.026268229449
Collision information:
    Debris name: DEBRIS4;
    Collision epoch: 6601.060225221447 (mjd2000);
    Distance: 755.7609083380986 (meters);
    Probability: 0.0005815220733687291.
100%|█████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 168.98it/s]
Current epoch: 6601.104325230668
Collision information:
    Debris name: DEBRIS2;
    Collision epoch: 6601.143356201858 (mjd2000);
    Distance: 1552.4987634253862 (meters);
    Probability: 3.0081641777683977e-08.

Training completed in 2.3879 sec.
Total Reward: -12.731431355792807
Action Table:
[[ 0.00000000e+00  0.00000000e+00  0.00000000e+00  2.11961690e-02]
 [-2.51012148e-01 -1.53286312e-01  7.29628162e-02  1.00000000e-06]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  5.06906041e-03]
 [-4.34987486e-02  8.95277998e-02 -1.71951283e-02  1.00000000e-06]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  0.00000000e+00]
 [ 4.11789779e-03 -9.78802611e-02  2.46076798e-02  1.00000000e-06]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  7.80560012e-02]
 [ 4.10983908e-03 -9.78803248e-02  2.46087737e-02  1.00000000e-06]]

kazeevn commented 6 years ago

Оставлять точно не надо, такая схема маневрирования нереалистична.

yandexdataschool / satellite-collision-avoidance

Новый baseline #83