Open rickshow314 opened 11 months ago
See the different camps in duplication files -https://ftp.ncbi.nlm.nih.gov/pub/dbVar/sandbox/sv_datasets/nonredundant/ -https://ftp.ncbi.nlm.nih.gov/pub/dbVar/sandbox/sv_datasets/nonredundant/duplications/ -https://github.com/ncbi/dbvar/blob/master/Structural_Variant_Sets/Nonredundant_Structural_Variants/Duplications/README.md
Get used to the different databases, locate them and view them as a whole.
Databases:
Con respecto a los datos:
La base de datos de ClinVar tiene un readme detallado con la información de cada una de las columnas que te puede servir de ayuda, pero si tu problema es que no puedes cargarlos por falta de memoria, supongo que Jesualdo te dejará utilizar el servidor del máster.
En la ruta de dbVAR (https://www.ncbi.nlm.nih.gov/dbvar/content/ftp_manifest/) tienes varias formas de estructurar los datos, pero cualquiera te vale. Por ejemplo, puedes elegir la estructura por ensamblado que lo recopila todo (https://ftp.ncbi.nlm.nih.gov/pub/dbVar/data/Homo_sapiens/by_assembly/GRCh38) y utilizar los gvf o los vcf (mismos datos, pero con diferente formato). También puedes elegir la versión no redundante (https://ftp.ncbi.nlm.nih.gov/pub/dbVar/sandbox/sv_datasets/nonredundant), donde tienes las mutaciones clasificadas por su tipo. Lo que prefieras. También tienes clasificaciones por estudio. La que te sea más cómoda.