Closed jorondo1 closed 1 year ago
je suis un peu mele dans tout ces softs
Est-ce que Metaphlan est un soft un peu comme kraken? Les 2 semble faire de la classification taxonomique
et sourmash?
En gros j'essaie de fitter ces soft dans les boite du schema suivant:
je suis justement en train de te préparer un schéma à jour comme on avait parlé, avec les pipelines "par défaut" et une liste de paramètres pour le config. Je t'envoie ça bientôt
MetaPhlan est un classifieur taxonomique qui utilise une approche vraiment différente de kraken et sourmash. En plus, la version 4 a update la db de génomes de référence pour inclure ~25 000 MAGs (sous forme de SGBs).
En gros on va laisser Kraken de côté et opter pour Sourmash et Metaphlan comme options de classification à partir des reads. On aura aussi en parallèle qui fait la classification à partir de génomes assemblés denovo.
La commande metaphlan est assez straightforward (j'ai mis des noms de variable à titre indicatif)
cat file1.fastq file2.fastq file3.fastq file4.fastq | metaphlan \
--input_type fastq \
--bowtie2out ${sample_name}.bowtie2.txt \
--nproc <INT> \
--add_viruses \
--unclassified_estimation \
-o ${sample_name}_profile.txt
doc installation et options ici
Comme pour Humann je veux qu'on concaténe les reads car c'est pas paired-end comme process. J'aimerais qu'on intègre aussi les reads non-paired, donc 4 fichiers fastq (Fwd-paired, Rev-paired, Fwd-single et Rev-single) concaténés en input.
Aussi, quand tout les samples ont run, voici le script pour merger l'output en une seule table avec le header formaté:
merge_metaphlan_tables.py taxMP/*profile.txt > tmp.txt
egrep '\|s__|clade_name' tmp.txt | cut --complement -f2 | sed -e 's:_profile::g' | sed 's:clade_name:#Classification:' > taxMP/MPA_abundance.tsv
rm tmp.txt
Avant d'intégrer mon script metaphlan au pipeline, j'aimerais qu'on migre à la version 4 qui utilise maintenant une db qui contient aussi des MAGs en référence. https://huttenhower.sph.harvard.edu/metaphlan/