ComunidadBioInfo / cdsb2019

Taller CDSB 2019: Cómo Crear y Ordenar Herramientas 'Tidy' (CDSB Workshop 2019: How to Build and Create Tidy Tools )
https://comunidadbioinfo.github.io/post/building-tidy-tools-cdsb-runconf-2019/
1 stars 1 forks source link

Un paquete para dar formato a archivos FASTA y GFF #15

Closed sdgamboa closed 1 year ago

sdgamboa commented 4 years ago

Estudios de genómica comparativa suelen incluir el análisis de cientos o miles de genomas de diferentes especies. A menudo, la información de estos genomas se obtiene de diferentes bases de datos, cada una generando sus propios identificadores para los diferentes locus en sus respectivos archivos FASTA y GFF (dependiendo del proceso de anotación). En consecuencia, cuando el análisis está terminado el análisis de la información se complica. Por ejemplo, si tienes un árbol filogenético con miles de hojas y cada una tiene identificadores como ‘1923819’, ‘scaffold_91292’ o ‘supercontig01920’, se hace más difícil saber a qué especie pertenece cada uno. Para hacer más fácil la interpretación, se suelen colocar abreviaturas específicas acompañadas de códigos de colores al inicio de cada identificador, algo así como AthP_Scaffold1 (Arabidopsis thaliana, Planta - verde) o MmuM_embl1029201 (Mus musculus, Mamífero - café). Uno se podría pasar algún tiempo en la terminal generando las abreviaturas para cada especie (las cuales deberían ser únicas) y modificando los archivos fasta y gff para que los nombres coincidan. Además haría falta la generación de archivos de metadatos, incluyendo tamaño de los genomas, nivel de ploidía, las claves de colores etc. De ahí la propuesta de generar un paquete en R que ayude a dar formato a los archivos de una manera más eficiente. Por ejemplo, generando las abreviaturas y facilitando su mapeo a cada archivo GFF y FASTA.

lcolladotor commented 4 years ago

ShortRead de Bioconductor y rtracklayer pueden ser útiles para este proyecto

lcolladotor commented 4 years ago

http://bioconductor.org/packages/release/bioc/html/ShortRead.html y http://bioconductor.org/packages/release/bioc/html/rtracklayer.html