Closed jorondo1 closed 2 years ago
je viens de reessayer et j'ai toujours ce problème, en fait je n'arrive même pas à voir quoi que ce soit dans squeue et aucun log n'est produit.
en roulant sbatch --array=1-10 /ip29/ilafores_group/sarahi/boreal_moss/custom_humann_run_20220420/make_custom_buglist.slurm.sh
pas checker ca encore....jessaie de faire ca sous peu
Salut ! J'essaie ma première run du script 03 avec 10 samples, j'y suis presque.... mon enviro semble ok mais voici ce qui se passe.
Je roule bash ${HUMANN_CUSTOM_INSTALL}/03_humann_custom_run.sh /ip29/ilafores_group/sarahi/boreal_moss/custom_humann_run_20220420 my.example.config
J'obtiens le log suivant, avec une ligne vide à la fin qui ne se résout pas.
load and valdiate env
################################################################################################################
## Checking global software dependencies
## checking if all humann custom variables are properly defined
## SLURM_WALLTIME: 35:00:00
## SLURM_ALLOCATION: def-ilafores
## SLURM_NBR_THREADS: 24
## SLURM_MEMORY: 125G
## SLURM_DB_COPY_LOCALSCRATCH: 0
################################################################################################################
################################################################################################################
## Checking humann software dependencies
## checking if all humann custom variables are properly defined
## SAMPLE_TSV datapath: /ip29/ilafores_group/sarahi/boreal_moss/custom_humann_run_20220420/HUMANN_RUN_SAMPLE.tsv
################################################################################################################
outputting humann custom slurm script to /ip29/ilafores_group/sarahi/boreal_moss/custom_humann_run_20220420/custom_human.slurm.sh
To submit to slurm, execute the following command:
follow-up sur ce dernier commentaire : je pense qu'il cherche la variable SAMPLE_TSV pour définir le sample_nbr ici (et dans les autres scripts aussi), mais cette variable n'a jamais été définie. J'imagine que ce serait HUMANN_SAMPLE_RUN_TSV qu'il faudrait pour ce code-ci.
Tant qu'à jouer là-dedans, voir mon autre suggestion de ce matin.
J'ai testé (en copiant mes scripts ailleurs) et c'est bien ça le problème. J'obtiens une commande slurm, quand je la soumet les jobs apparaissent pour quelques secondes puis disparaissent et je n'ai aucun log pour comprendre ce qui se passe.
probablement un bug lors de lexec sur slurm. L'output slurm devrait etre defini dans le header #SBATCH du script
jessaie de regle ca sous peu
pour avoir le slurm log tu doit mettre l'anchor NFS.
donc changer /ip29/ilafores_group/sarahi/boreal_moss/custom_humann_run_20220420/ pour /nfs3_ib/ip29-ib//ip29/ilafores_group/sarahi/boreal_moss/custom_humann_run_20220420/
stp me paster le contenu du log ou mindiquer ou aller le voir.
modifier le code pour enlever SAMPLE_TSV et remplacer par HUMANN_RUN_SAMPLE_TSV
voir ici
ok je vais essayer ça dans mon config ça serait tu correct qu'après avoir défini
### Global analysis parameters
export OUPUT_PATH=/nfs3_ib/ip29-ib/ip29/ilafores_group/sarahi/boreal_moss/custom_humann_run_20220420
j'utilise ${OUPUT_PATH} pour remplacer ce chemin dans la définition de toutes les variables suivantes ?
exemple
export HUMANN_RUN_SAMPLE_TSV="${OUPUT_PATH}/HUMANN_RUN_SAMPLE.tsv"
aussi, j'imagine que dans mes tsv les path de mes fichiers doivent tous avoir le NFS anchor?
pour avoir le slurm log tu doit mettre l'anchor NFS.
donc changer /ip29/ilafores_group/sarahi/boreal_moss/custom_humann_run_20220420/ pour /nfs3_ib/ip29-ib//ip29/ilafores_group/sarahi/boreal_moss/custom_humann_run_20220420/
stp me paster le contenu du log ou mindiquer ou aller le voir.
j'utilise ${OUPUT_PATH} pour remplacer ce chemin dans la définition de toutes les variables suivantes ? exemple export HUMANN_RUN_SAMPLE_TSV="${OUPUT_PATH}/HUMANN_RUN_SAMPLE.tsv"
oui ca devrait fonctionner
aussi, j'imagine que dans mes tsv les path de mes fichiers doivent tous avoir le NFS anchor?
exact
ne pas oublie egalement que la plupart des bd sont sur le SSD d'ip29. Faut egalement acceder avec le achor NFS si la job roule sur les noeud de calcul
/nfs3_ib/ip29-ib/ssdpool/shared/ilafores_group/
cool parfait est-ce que bientôt je pourrais commencer à faire des modifs direct au script sur github, du genre remplacer ${OUPUT_PATH} (rien de trop compliqué pour commencer..!)
faudrait jjuste que tu me montres la bonne manière de fonctionner, pour que je ne brise rien !
non ce fichier agit a titre d'example....
to le copie a l'endroit de ton choix et tu l'edite comme tu veux.
ensuite tu call le soft de cette facon:
HUMANN_CUSTOM_INSTALL=/project/def-ilafores/common/ILL_pipelines/humann_custom
cp ${HUMANN_CUSTOM_INSTALL}/my.example.config .
bash ${HUMANN_CUSTOM_INSTALL}/03_humann_custom_run.sh my.example.config
sbatch --array=1-xxx ${OUPUT_PATH}/custom_human.slurm.sh
si tu remarque des bugs, tu edite le fichier genere custom_human.slurm.sh pour tes tests et ensuite tu rapporte les changement icivia une issue
j'envoie 10 samples en test, voici où j'en suis:
jusque là tout a l'air ok, mais je squeue | grep ronj et voici ce que je vois:
seulement 2 arrays, et après quelques secondes plus rien. Le plus weird c'est que je n'ai pas de slurm log qui apparaît dans /ip29/ilafores_group/sarahi/boreal_moss/custom_humann_run_20220420/ tel que spécifié dans make_custom_buglist.slurm.sh
donc j'ai aucune idée quoi regarder pour debugger