jflucier / ILL_pipelines

Isabelle Laforest-Lapointe Laboratory code
0 stars 1 forks source link

compute node copy reached max of 5 parralel copy, will wait 15 sec... #63

Closed jorondo1 closed 1 year ago

jorondo1 commented 1 year ago

Salut, toutes mes 34 jobs d'assemblages qui roulent supposément sont coincées depuis que je les ai lancées il y a 24h, elles ne font qu'imprimer ce message toutes les 15 secondes:

/nfs3_ib/nfs-ip34/home/def-ilafores/analysis/boreal_moss/assembly/logs/assembly_binrefinement-1669070*.slurm.out

as-tu une idée de ce qui se passe ?

jflucier commented 1 year ago

le throttling a jamme.

je t concocte ce code si tu veux monitorer la prochaine fois:

while true;
do

  echo "###################################################";
  for f in /nfs3_ib/nfs-ip34/home/def-ilafores/analysis/boreal_moss/assembly/.throttle/*
  do
    #/nfs3_ib/nfs-ip34/home/def-ilafores/analysis/boreal_moss/assembly/.throttle/throttle.start.S-3-POLCOM-B.txt
    s=$(perl -e '
      my $f = "'$f'";
      my($s) = $f =~ /.*\/throttle\.start\.(.*).txt$/;
      print "$s\n";
    ')
    grep_res=$(grep -e $s /nfs3_ib/nfs-ip34/home/def-ilafores/analysis/boreal_moss/assembly/logs/assembly_bin_refinement-1669070_*.out)
    log_f=$(perl -e '
      my $f = "'$grep_res'";
      my @a = split(/\:/,$f);
      print @a[0] . "\n";
    ')

    echo "# $f --> $log_f"
    tail -n 3 $log_f
    echo ""
  done

  sleep 10;

done

jai pas pu tester car les tranferts se sont termine avant que je termine ce code. Tu devras editer les path en fonction de ton out path du pipeline. En gros ca print les derniere ligne du slurm out qui est en train de transferer entre le noeud de calcul et ip34. Ca devrait evoluer dasn le temps... faut quand meme etre patient car certain transfert peuvent etre long comme par exemple des fastq

Quand tu lance des jobs, jai integrer un systeme de throttling pour pas sature le network de ip34. 5 trandfert sont fait en simultanne. Quand un termine un nouveau part. Pour une raison que j'ignore ca jammer cette fois. Je soupconne un bug reseau qui a eu lieu ce matin a 5:30

Pour debugge ca jai deleter le contenu du dossier /nfs3_ib/nfs-ip34/home/def-ilafores/analysis/boreal_moss/assembly/.throttle. En faisant ca, je crois avoir peter les jobs 1 a 34.

jorondo1 commented 1 year ago

ok ça semble rouler pour les jobs 35-68, je vais repartiir les autres demain merci!