gem-pasteur / Integron_Finder

Bioinformatics tool to find integrons in bacterial genomes
GNU General Public License v3.0
67 stars 22 forks source link

help --gembase #35

Closed johrollin closed 2 years ago

johrollin commented 7 years ago

Bonjour,

Nous souhaitons utiliser IntegronFinder en ayant nos propres annotations de gènes, par conséquent, sans utiliser Prodigal. Pour cela nous avons essayé --gembase, sans succès. IntegronFinder ne semble pas pouvoir lire de multi-fasta, or, le gembase qui contiendrait les annotations protéiques devrait être multi-fasta.

Est-ce bien l'utilisation prévue pour --gembase ? Quel serait l'alternative pour pouvoir détecter les intégrons avec nos propres annotations/prédictions de protéines?

Cordialement, J.Rollin & P.Amours. LABGeM/Génoscope

jeanrjc commented 7 years ago

Bonjour,

Pour l'instant il n'y a pas d'option pratique pour utiliser vos annotations. L'option --gembase est essentiellement une option pour utilisation interne. Cela dit, vous avez 2 options:

  1. Créer vos fichiers de protéines en amont, et faire en sorte qu'ils soient au bon endroit pour satisfaire la condition de présence du fichier au bon endroit. La seule autre condition pour que ça marche est de respecter le format de description du header fasta fourni par prodigal pour que le parseur fonctionne, à savoir:

     > ID_PROTEIN # 556 # 771 # -1 # whatever
     MYPROTEINSEQ....

Je pense que c'est le plus simple.

  1. Vous pouvez essayer avec l'option --gembase mais il faut respecter un plus grand nombre de conditions que précédemment, notamment avoir une architecture de dossier spécifique et un header du fasta différent.

Dites moi si l'option 1 ne marche pas, et on avisera ensuite.

Cordialement, Jean Cury

johrollin commented 7 years ago

Merci pour la réponse rapide, nous allons essayer l'option 1, nous vous tenons au courant.

johrollin commented 7 years ago

Bonjour, Nous avons testé l'option 1 qui semble fonctionner, nous arrivons à obtenir les prédictions d'intégrons avec nos annotations. Nous allons, donc utiliser IntegronFinder via cette méthode pour le moment. Pensez vous qu'il soit possible d'implémenter à l'avenir une fonctionnalité qui permettrait de prendre le fichier de protéines en entrée du programme (et donc d'éviter à avoir à le placer dans les dossiers de résultats) ?

Merci pour votre aide

J.Rollin & P.Amours. LABGeM/Génoscope

cachapuz2001 commented 7 years ago

Nous y réfléchissons ! Cordialement, Eduardo

bneron commented 2 years ago

fix this issue by providing two new options --prot-file path to the protein file in fasta format --annot-parser path to a python script to parse the sequence ids see https://integronfinder.readthedocs.io/en/latest/user_guide/tutorial.html#custom-protein-file