Closed jorondo1 closed 1 year ago
le throttling a jamme.
je t concocte ce code si tu veux monitorer la prochaine fois:
while true;
do
echo "###################################################";
for f in /nfs3_ib/nfs-ip34/home/def-ilafores/analysis/boreal_moss/assembly/.throttle/*
do
#/nfs3_ib/nfs-ip34/home/def-ilafores/analysis/boreal_moss/assembly/.throttle/throttle.start.S-3-POLCOM-B.txt
s=$(perl -e '
my $f = "'$f'";
my($s) = $f =~ /.*\/throttle\.start\.(.*).txt$/;
print "$s\n";
')
grep_res=$(grep -e $s /nfs3_ib/nfs-ip34/home/def-ilafores/analysis/boreal_moss/assembly/logs/assembly_bin_refinement-1669070_*.out)
log_f=$(perl -e '
my $f = "'$grep_res'";
my @a = split(/\:/,$f);
print @a[0] . "\n";
')
echo "# $f --> $log_f"
tail -n 3 $log_f
echo ""
done
sleep 10;
done
jai pas pu tester car les tranferts se sont termine avant que je termine ce code. Tu devras editer les path en fonction de ton out path du pipeline. En gros ca print les derniere ligne du slurm out qui est en train de transferer entre le noeud de calcul et ip34. Ca devrait evoluer dasn le temps... faut quand meme etre patient car certain transfert peuvent etre long comme par exemple des fastq
Quand tu lance des jobs, jai integrer un systeme de throttling pour pas sature le network de ip34. 5 trandfert sont fait en simultanne. Quand un termine un nouveau part. Pour une raison que j'ignore ca jammer cette fois. Je soupconne un bug reseau qui a eu lieu ce matin a 5:30
Pour debugge ca jai deleter le contenu du dossier /nfs3_ib/nfs-ip34/home/def-ilafores/analysis/boreal_moss/assembly/.throttle
. En faisant ca, je crois avoir peter les jobs 1 a 34.
ok ça semble rouler pour les jobs 35-68, je vais repartiir les autres demain merci!
Salut, toutes mes 34 jobs d'assemblages qui roulent supposément sont coincées depuis que je les ai lancées il y a 24h, elles ne font qu'imprimer ce message toutes les 15 secondes:
/nfs3_ib/nfs-ip34/home/def-ilafores/analysis/boreal_moss/assembly/logs/assembly_binrefinement-1669070*.slurm.out
as-tu une idée de ce qui se passe ?