rocioagmi / TFG

0 stars 0 forks source link

Descarga de los datos de la BBDD #5

Open rocioagmi opened 1 week ago

rocioagmi commented 1 week ago

Probar a descargar todas las muestras fastq de la BBDD que hemos seleccionado.

rocioagmi commented 1 week ago

Hola @ajcanepa, @SoniaRamosGomez, Ya tengo descargadas todas las secuencias. Son 65 muestras y en cada una tenemos dos secuencias, supongo que una por cada hebra del ADN, en total 130. Todas ellas identificadas por si es paciente sano o con esclerosis múltiple y por si es la lectura 1 o 2 dentro de cada muestra.

ajcanepa commented 1 week ago

Hola @ajcanepa, @SoniaRamosGomez, Ya tengo descargadas todas las secuencias. Son 65 muestras y en cada una tenemos dos secuencias, supongo que una por cada hebra del ADN, en total 130. Todas ellas identificadas por si es paciente sano o con esclerosis múltiple y por si es la lectura 1 o 2 dentro de cada muestra.

Hola Rocío,

De cara al pipeline tengo una pregunta (este tema no lo uso con el detalle que me gustaría y de ahí mi duda), ¿podrías automatizar tanto el proceso de descarga (si te conectas a una API o si usas un paquete para las bases de datos que estás usando), como el de almacenamiento (entiendo que al ser datos semi-estructurados podrías guardar la información en un fichero .json o en una base de datos no-SQL local como MongoDB y el paquete de R Mongolite) para tu TFG?

Hay un Manual de Usuario bastante bueno Mongolite User Manual, donde precisamente tiene un capítulo para crear la base de datos usando ficheros .json Chapter 5 Import / Export

Todas estas automatizaciones y desarrollos son muy buenos para el TFG....me avisas cualquier cosa.

rocioagmi commented 5 days ago

Hola @ajcanepa , Respecto a la automatización me parece un punto muy interesante y mientras lo he estado intentando implementar me han surgido algunos problemas, primero tuve que crearme otra sesión en mi portátil donde usar RStudio para que la dirección del directorio de trabajo no tuviese tildes, ya que mi usuario lleva una. Luego a la hora de usar la función del paquete R Mongolite tengo el problema de que tengo dos enlaces por muestra (una para cada hebra) para descargar la información. Mi idea era, descargarme el script tsv, en el que aparece tal cual la tabla que vemos al entrar en la base de datos, e ir recorriendo en bucle la columna donde se encuentran los 2 enlaces de descarga para cada muestra, separarlos y aplicarles la función de Mongolite para poder importarlos. Otro problema que se me presenta es que al no usar Rstudio en la cuenta del administrador del portátil, no lo interpreta como un tsv y se me guarda como un txt, entonces no tengo forma de acceder a los enlaces como filas de una columna.

Siento la tardanza de mi respuesta. Muchas gracias de antemano.

ajcanepa commented 5 days ago

Hola @rocioagmi, my buenas. Intento separar los problemas en puntos:

Espero haber ayudado y si necesitas que nos reunamos nos avisas; a lo mejor se necesita una reunión en la que estemos todos.

Saludos,

SoniaRamosGomez commented 3 days ago

Buenos días @rocioagmi , Obviamente sería muy útil tener un sistema de descarga de los datos. Nos interesan fundamentalemente los datos en formato fasta (fastq.gz) y, para que sean más fiables, debería haber dos ficheros por cada muestra (Sample Accession). Normalmente vienen codificados con el mismo nombre de la "Run Acession" y _1 para la hebra forward, _2 para la hebra reverse. Necesitamos ambas hebras para el análisis, esto nos permite comprobar si hay regiones a eliminar o coberturas.

No sé si he ayudado.

ajcanepa commented 3 days ago

[like] ANTONIO JESUS CANEPA ONETO reacted to your message:


From: SoniaRamosGomez @.> Sent: Wednesday, October 9, 2024 11:42:08 AM To: rocioagmi/TFG @.> Cc: ANTONIO JESUS CANEPA ONETO @.>; Mention @.> Subject: Re: [rocioagmi/TFG] Descarga de los datos de la BBDD (Issue #5)

Buenos días @rocioagmihttps://github.com/rocioagmi , Obviamente sería muy útil tener un sistema de descarga de los datos. Nos interesan fundamentalemente los datos en formato fasta (fastq.gz) y, para que sean más fiables, debería haber dos ficheros por cada muestra (Sample Accession). Normalmente vienen codificados con el mismo nombre de la "Run Acession" y _1 para la hebra forward, _2 para la hebra reverse. Necesitamos ambas hebras para el análisis, esto nos permite comprobar si hay regiones a eliminar o coberturas.

No sé si he ayudado.

— Reply to this email directly, view it on GitHubhttps://github.com/rocioagmi/TFG/issues/5#issuecomment-2402087291, or unsubscribehttps://github.com/notifications/unsubscribe-auth/ACRC4QEZMUKQ2FARJ44FHFDZ2UJBBAVCNFSM6AAAAABPHHLFA2VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDIMBSGA4DOMRZGE. You are receiving this because you were mentioned.Message ID: @.***>

rocioagmi commented 2 days ago

Buenos días @SoniaRamosGomez y @ajcanepa, Sí, muchas gracias. Entiendo lo que me decís acerca de la automatización de la descarga de los datos y la necesidad de tener los dos archivos fasta.gz por cada muestra. He estado buscando API y paquetes R que nos sirvan para la descarga de los datos directamente desde el ENA. Encontré un paquete de R en github RENA pero no estoy consiguiendo instalarlo, he entendido que permite descargar archivos del ENA a través del número de acceso al estudio o las secuencias. También encontré una API para la descarga de archivos tanto del ENA como del SRA del NCBI fastq-dl, no está diseñada para R pero podemos usarla para obtener los datos y luego ya usarlos dentro de R. Por último he encontrado he encontrado una guía del ENA sobre cómo descargar archivos de datos pero no entiendo bien cómo podría integrarla en el código en R,. Así que por el momento voy a seguir investigando si hay más opciones.
Muchas gracias

ajcanepa commented 2 days ago

Buenos días @SoniaRamosGomez y @ajcanepa, Sí, muchas gracias. Entiendo lo que me decís acerca de la automatización de la descarga de los datos y la necesidad de tener los dos archivos fasta.gz por cada muestra. He estado buscando API y paquetes R que nos sirvan para la descarga de los datos directamente desde el ENA. Encontré un paquete de R en github RENA pero no estoy consiguiendo instalarlo, he entendido que permite descargar archivos del ENA a través del número de acceso al estudio o las secuencias. También encontré una API para la descarga de archivos tanto del ENA como del SRA del NCBI fastq-dl, no está diseñada para R pero podemos usarla para obtener los datos y luego ya usarlos dentro de R. Por último he encontrado he encontrado una guía del ENA sobre cómo descargar archivos de datos pero no entiendo bien cómo podría integrarla en el código en R,. Así que por el momento voy a seguir investigando si hay más opciones. Muchas gracias

Hola @rocioagmi , buenas. Estoy corto de tiempo ahora mismo, entonces te responderé a modo general. Está estupendo que uses paquetes que tengan implementadas ciertas funcionalidades (descarga, visualización, etc.); pero claramente no todo lo que necesitas estará implementado.

Además como futura Ingeniera de la salud, crear tus propias herramientas es "lo suyo". Si miras/lees en las mismas páginas que nos has enviado, te muestran como descargar los datos usando un comando bash llamado wget. https://ena-docs.readthedocs.io/en/latest/retrieval/file-download.html#using-wget.

Este mismo comando lo puedes "emular" con la función base de R download.file, de tal manera que con el código que te paso ahora podrías hacer la descarga:

# Especifica la URL del archivo .fastq.gz en ENA
url <- "ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR164/ERR164407/ERR164407.fastq.gz"

# Especifica el nombre del archivo de destino
destfile <- "ERR164407.fastq.gz"

# Descarga el archivo
download.file(url, destfile, mode = "wb")

Entonces, no siempre estará la función que necesitas, pero a partir de este código puedes crear tú misma una función que pasándole a el objeto url una lista de archivos ".fastq.gz", a través de un for loop te los descargue todos.....

¿me explico?