lageIBUSP / abacus

Documentação e scripts de administração do cluster Abacus
0 stars 1 forks source link

Execução em OpenMPI falhando #12

Closed andrechalom closed 7 years ago

andrechalom commented 8 years ago

Ao executar programas usando mpi, estou recebendo o erro

chalom@abacus0009:~$ mpirun -machinefile mpd.hosts -np 9 -d ./hello mpiexec_abacus0009: cannot connect to local mpd (/tmp/mpd2.console_chalom); possible causes:

  1. no mpd is running on this host
  2. an mpd is running but was started without a "console" (-n option) In case 1, you can start an mpd on this host with: mpd & and you will be able to run jobs just on this host. For more details on starting mpds on a set of hosts, see the MPICH2 Installation Guide.
andrechalom commented 8 years ago

OK, instalei o pacote mpich pelo apt-get, agora o comando abaixo funciona corretamente:

chalom@abacus0009:~$ mpiexec.mpich --hostfile mpd.hosts -n 4 ~/a.out hello MPI user: from process = 0 on machine=abacus0009, of NCPU=4 processes hello MPI user: from process = 3 on machine=abacus0009, of NCPU=4 processes hello MPI user: from process = 2 on machine=abacus0011, of NCPU=4 processes hello MPI user: from process = 1 on machine=abacus0010, of NCPU=4 processes

Importante notar, o caminho para o executável precisa ser absoluto. Será que podemos remover os executáveis / links do /usr/local/bin que contém as versões antigas do mpi/mpd e criar novos symlinks para a versão gerenciada por apt?

andrechalom commented 8 years ago
andrechalom commented 8 years ago

Rodando raXML:

raxmlHPC -m BINGAMMA -p 12345 -s binary.phy -n T1 -T 4

Parece funcionar perfeitamente bem em um servidor. Não consigo fazer ele funcionar com mais de um nó. Rodando algo como:

mpiexec.mpich -n 3 --hostfile mpd.hosts /usr/bin/raxmlHPC-PTHREADS-SSE3 -m BINGAMMA -p 12345 -s binary.phy -n T2 -T 4

Retorna mensagens de erro em N-1 nós:

RAxML output files with the run ID already exist in directory /home/chalom/ ...... exiting

andrechalom commented 7 years ago

Removi os binários antigos do mpi/mpd para uma pasta /root/mpibkp, agora os únicos executáveis no $PATH devem ser os da versão nova (mpich, instalada em 2016). Também removi os executáveis do master, para dar um empurrãozinho na direção de que código pesado seja sempre executado nos nós. Se alguém tiver algum problema com mpi, por favor me informe e eu reabro o issue.