Un paquete para dar formato a archivos FASTA y GFF

sdgamboa commented 5 years ago

Estudios de genómica comparativa suelen incluir el análisis de cientos o miles de genomas de diferentes especies. A menudo, la información de estos genomas se obtiene de diferentes bases de datos, cada una generando sus propios identificadores para los diferentes locus en sus respectivos archivos FASTA y GFF (dependiendo del proceso de anotación). En consecuencia, cuando el análisis está terminado el análisis de la información se complica. Por ejemplo, si tienes un árbol filogenético con miles de hojas y cada una tiene identificadores como ‘1923819’, ‘scaffold_91292’ o ‘supercontig01920’, se hace más difícil saber a qué especie pertenece cada uno. Para hacer más fácil la interpretación, se suelen colocar abreviaturas específicas acompañadas de códigos de colores al inicio de cada identificador, algo así como AthP_Scaffold1 (Arabidopsis thaliana, Planta - verde) o MmuM_embl1029201 (Mus musculus, Mamífero - café). Uno se podría pasar algún tiempo en la terminal generando las abreviaturas para cada especie (las cuales deberían ser únicas) y modificando los archivos fasta y gff para que los nombres coincidan. Además haría falta la generación de archivos de metadatos, incluyendo tamaño de los genomas, nivel de ploidía, las claves de colores etc. De ahí la propuesta de generar un paquete en R que ayude a dar formato a los archivos de una manera más eficiente. Por ejemplo, generando las abreviaturas y facilitando su mapeo a cada archivo GFF y FASTA.

lcolladotor commented 5 years ago

ShortRead de Bioconductor y rtracklayer pueden ser útiles para este proyecto

lcolladotor commented 5 years ago

http://bioconductor.org/packages/release/bioc/html/ShortRead.html y http://bioconductor.org/packages/release/bioc/html/rtracklayer.html

ComunidadBioInfo / cdsb2019

Un paquete para dar formato a archivos FASTA y GFF #15