HPCHub / benchmarks

Technical market research of HPC Cloud vendors
0 stars 0 forks source link

Pinguin Computing: научиться заказывать кластер #2

Open vbitner87 opened 6 years ago

vbitner87 commented 6 years ago

Необходимо сейчас изучить как можно заказать подобие виртуального кластера. Ключевые моменты:

инстансы должны быть сильно связные. надо добиться чтобы они были в одной стойке/свитча нужно подобрать инстансы близкие к инстансам в HPC Hub необходимо сделать по мере изучения отчет с описанием процесса заказа кластера. Для примера отчета прошу смотреть в наш аналог по рескейлу: https://docs.google.com/document/d/1C0ka7gH70j2k9cJy7W0iBoT9ToLCSJk_AHGhQNtXXzY/edit

Отчет оставим тут в вики (можно писать в гугл доке, а в вики оставить только ссыль на гуглдок)

LenaAn commented 6 years ago

@vbitner87 @ubuntik

Авторизация: pod.penguincomputing.com login: elena.aniusheva@skoltech.ru password: qwerty123qwerty123

LenaAn commented 6 years ago

@vbitner87 @ubuntik Добавила в вики письмо с инструкциями, которое они приложили при активации аккаунта https://github.com/HPCHub/benchmarks/wiki/Penguin

ubuntik commented 6 years ago

А вы Infiniband просили? В инструкции в основном про логин на MT2, где нет быстрого интерконнекта.

On Wed, Jan 31, 2018 at 12:43 PM, LenaAn notifications@github.com wrote:

@vbitner87 https://github.com/vbitner87 @ubuntik https://github.com/ubuntik Добавила в вики письмо с инструкциями, которое они приложили при активации аккаунта https://github.com/HPCHub/benchmarks/wiki/Penguin

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/HPCHub/benchmarks/issues/2#issuecomment-361877603, or mute the thread https://github.com/notifications/unsubscribe-auth/ABn1Hb0UfxcNeDTfOJOUoLnfQqZ9x9mLks5tQDWlgaJpZM4RZQqk .

LenaAn commented 6 years ago

@ubuntik Про Infiniband я ничего не писала, но на сайте есть доступ к MT1: https://pod.penguincomputing.com/account/instance/16/create

В инструкции написано про MT2, потому что они пишут, что

Using the MT2 cluster is recommended for most customers.

Я сама не заказывала кластер, но вроде в MT1 все выглядит похоже на MT2. Если будут вопросы -- пиши, я перешлю им с моей почты

vbitner87 commented 6 years ago

свою карту привязал к аккаунту

ср, 31 янв. 2018 г. в 13:13, LenaAn notifications@github.com:

@ubuntik https://github.com/ubuntik Про Infiniband я ничего не писала, но на сайте есть доступ к MT1: https://pod.penguincomputing.com/account/instance/16/create

В инструкции написано про MT2, потому что они пишут, что

Using the MT2 cluster is recommended for most customers.

Я сама не заказывала кластер, но вроде в MT1 все выглядит похоже на MT2. Если будут вопросы -- пиши, я перешлю им с моей почты

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/HPCHub/benchmarks/issues/2#issuecomment-361885920, or mute the thread https://github.com/notifications/unsubscribe-auth/ADkub70yXATkMQekSn_QrlY5tz-Drp_sks5tQDyrgaJpZM4RZQqk .

vbitner87 commented 6 years ago

IMB-MPI1.job.o17055626.txt modules-list.txt

2018-02-04 11:31 GMT+03:00 Andrey Nikolaev gentoorion@gmail.com:

Ну че, хорошо поддерживаемый коммерческий супер. Единственно что мне непонятно -- цифры результатов IMB-MPI. Как-то крутовато 0.27мкс латентность на пинг-понге. Вот пример латентности этого же теста http://mellanox28.rssing.com/chan-11024349/all_p118.html Тема:06/10/15--11:55: latency ibping between two hosts Строка пуска: mpirun -iface ib0 -hosts compute02,compute03 -n 2 -ppn 1 IMB-MPI1 pingpong

PingPong

---------------------------------------------------

Benchmarking PingPong

processes = 2

---------------------------------------------------

   #bytes #repetitions      t[usec]   Mbytes/sec
        0         1000         1.54         0.00
        1         1000         1.57         0.61
        2         1000         1.53         1.25
        4         1000         1.51         2.53
        8         1000         1.50         5.07
       16         1000         1.47        10.41
       32         1000         1.57        19.49
       64         1000         1.52        40.18
      128         1000         1.58        77.33
      256         1000         2.28       106.92
      512         1000         2.40       203.25

.......

Как видно, латентность раз в 5 больше. И это логично, ибо сам Мелланокс дает на своей официальной страничке циф http://www.mellanox.com/page/performance_infiniband

Mellanox 56Gb/s FDR IB Intel 40Gb/s QDR IB Intel 10GbE NetEffect NE020 Throughput 6.8 GB/s 3.2 GB/s 1.1 GB/s Latency 0.7us 1.2us 7.22us Message Rate 137 Million msg/sec 30 Million msg/sec 1.1 Million msg/sec

Из этого вывод -- скорее всего это латентность ping-pong внутри узла. Для проверки наверное можно было бы попоробовать с одной стороны (гарантировано между узлами)

PBS -l nodes=2:ppn=1

mpirun /public/examples/mpi-examples/IMB-MPI1 pingpong и с другой (гарантировано внутри узла)

PBS -l nodes=1:ppn=2

mpirun /public/examples/mpi-examples/IMB-MPI1 pingpong

2018-02-04 1:17 GMT+03:00 Anna Subbotina subbotinanna@gmail.com:

Посмотрела "пингвинов". Запускала задачи на "свободной/бесплатной очереди". Мое мнение - хороший сервис. В приложении список подгружаемых модулей - список предоставляемого внушительный. У них простой запуск задач на счет через PBS в выбранную очередь. Единственный "минус" я взяла бесплатный сторадж 1Гб, а для ресайза нужно им написать. На МТ1 есть несколько очередей: Queue Compute Nodes Cores/Node RAM/Node

 FREE   Free 5 minute, 24 core jobs   12           48GB
 M40     2.9GHz Intel Westmere          12           48GB
 H30     2.6GHz Intel Sandy Bridge     16           64GB
 T30      2.6GHz Intel Haswell              20          128GB

 Queue  GPU Nodes                  GPUs/Node  RAM/Node
 -----------------------------------------------------
 H30G   H30 with two NVIDIA K40 GPUs    2        64GB

                         Node Specs      Avail  Avail

Queue Node Class Cores RAM Nodes Cores



T30 Intel Haswell 20 128GB 82 1640

H30 Intel Sandy Bridge 16 64GB 38 608 H30G NVIDIA K40 GPUs 16 64GB 6 96 M40 Intel Westmere 12 48GB 114 1368

Я запустила простую mpi-hello задачу на двух узлах. Еще у них есть intel-тесты, я их тоже прогнала, результаты приложены. Интерактивной сессией зайти на узел не удалось.

mickvav commented 6 years ago

у меня qsub -I -l walltime=00:04:00 вполне давал интерактивную сессию на узел. Правда, через минуту ожидания где-то.

mickvav commented 6 years ago

UPD: По каким-то причинам, очередь FREE не доступна сейчас на нём, по крайней мере сейчас, так что все эксперименты - в очереди M40, которая платная.