jflucier / ILL_pipelines

Isabelle Laforest-Lapointe Laboratory code
0 stars 1 forks source link

Installation Metaphlan4 #55

Closed jorondo1 closed 1 year ago

jorondo1 commented 1 year ago

Avant d'intégrer mon script metaphlan au pipeline, j'aimerais qu'on migre à la version 4 qui utilise maintenant une db qui contient aussi des MAGs en référence. https://huttenhower.sph.harvard.edu/metaphlan/

jflucier commented 1 year ago

je suis un peu mele dans tout ces softs

Est-ce que Metaphlan est un soft un peu comme kraken? Les 2 semble faire de la classification taxonomique

et sourmash?

En gros j'essaie de fitter ces soft dans les boite du schema suivant: image

jorondo1 commented 1 year ago

je suis justement en train de te préparer un schéma à jour comme on avait parlé, avec les pipelines "par défaut" et une liste de paramètres pour le config. Je t'envoie ça bientôt

jorondo1 commented 1 year ago

MetaPhlan est un classifieur taxonomique qui utilise une approche vraiment différente de kraken et sourmash. En plus, la version 4 a update la db de génomes de référence pour inclure ~25 000 MAGs (sous forme de SGBs).

En gros on va laisser Kraken de côté et opter pour Sourmash et Metaphlan comme options de classification à partir des reads. On aura aussi en parallèle qui fait la classification à partir de génomes assemblés denovo.

La commande metaphlan est assez straightforward (j'ai mis des noms de variable à titre indicatif)

cat file1.fastq file2.fastq file3.fastq file4.fastq | metaphlan \
--input_type fastq \
--bowtie2out ${sample_name}.bowtie2.txt \
--nproc <INT> \
--add_viruses \
--unclassified_estimation \
-o ${sample_name}_profile.txt

doc installation et options ici

Comme pour Humann je veux qu'on concaténe les reads car c'est pas paired-end comme process. J'aimerais qu'on intègre aussi les reads non-paired, donc 4 fichiers fastq (Fwd-paired, Rev-paired, Fwd-single et Rev-single) concaténés en input.

jorondo1 commented 1 year ago

Aussi, quand tout les samples ont run, voici le script pour merger l'output en une seule table avec le header formaté:

merge_metaphlan_tables.py taxMP/*profile.txt > tmp.txt
egrep '\|s__|clade_name' tmp.txt | cut --complement -f2 | sed -e 's:_profile::g' | sed 's:clade_name:#Classification:' > taxMP/MPA_abundance.tsv
rm tmp.txt