Open vbitner87 opened 6 years ago
https://blog.rescale.com/public-cloud-mpi-network-benchmark-roundup/
Занимательная статья. На Азуре можно как-то заказать IB. Прошу обратить внимание.
возникла проблема на azure (узлы с centos): Если коротко, тоработает только intelmpi, но на узлах представлена только часть impi отвечающая за запуск, части за компиляцию (mpicc ... ) - нет.
Вот тут народ обсуждает аналогичную проблему - https://stackoverflow.com/questions/44038863/how-do-i-compile-mpi-applications-on-microsoft-azure-for-using-rdma Соответственно, вопрос - mpiicc там есть?
@mickvav нет, на виртуалке нигде его нет.
@tismagilov А техподдержка по этому поводу что говорит? Как по их мнению люди должны запускать свои программы на их кластере? Нужно туда закидывать бинарники, собранные нужным компилятором под нужную платформу?
@mickvav в первом приближении не увидел возможности бесплатно задать вопрос. Задал вопрос в msdn, но не знаю как быстро ответят.
@mickvav Удалось запустить: IMPI бинарно совместим с mpich 3.2 ( https://www.mpich.org/static/downloads/3.2/mpich-3.2-README.txt )
Круто! У меня с портированием osu-шных тестов пока затык - фокус в том, что на penguin-е ты не можешь быть уверен, что следующий mpirun будет на тех же узлах, что и предыдущий - там доступен только pbs. Думаю над идеей научить run.sh запиливать самого себя в очередь pbs-а, и тогда "внутри" можно будет уже запускать всю кухню... Но надо ещё покурить это...
@tismagilov А можешь заскриптовать всю эту механику в local_platform_hooks/azure.install.sh ? Это скрипт, который (если он есть) запускается локально, специфично для платформы, и может сделать все необходимые приготовления - собрать (локально) mpich3.2, подготовить правильно собранные бинарники всех включенных тестов, залить их на удаленную машину, а потом - сделать exit 0
, чтобы не переходить к следующей (штатной) фазе?
@mickvav я думал это делается в platform файле: if [ "$HPCHUB_OPERATION" == "install_system" ]; then Сделаю. Если бинарники собираются в local_platform_hook, то что тогда делается на стадии install в runat.sh?
по аналогии с #2 надо научиться создавать кластер и сделать отчет по аналогии