Descarga de los datos de la BBDD

rocioagmi commented 1 month ago

Probar a descargar todas las muestras fastq de la BBDD que hemos seleccionado.

rocioagmi commented 1 month ago

Hola @ajcanepa, @SoniaRamosGomez, Ya tengo descargadas todas las secuencias. Son 65 muestras y en cada una tenemos dos secuencias, supongo que una por cada hebra del ADN, en total 130. Todas ellas identificadas por si es paciente sano o con esclerosis múltiple y por si es la lectura 1 o 2 dentro de cada muestra.

ajcanepa commented 1 month ago

Hola @ajcanepa, @SoniaRamosGomez, Ya tengo descargadas todas las secuencias. Son 65 muestras y en cada una tenemos dos secuencias, supongo que una por cada hebra del ADN, en total 130. Todas ellas identificadas por si es paciente sano o con esclerosis múltiple y por si es la lectura 1 o 2 dentro de cada muestra.

Hola Rocío,

De cara al pipeline tengo una pregunta (este tema no lo uso con el detalle que me gustaría y de ahí mi duda), ¿podrías automatizar tanto el proceso de descarga (si te conectas a una API o si usas un paquete para las bases de datos que estás usando), como el de almacenamiento (entiendo que al ser datos semi-estructurados podrías guardar la información en un fichero .json o en una base de datos no-SQL local como MongoDB y el paquete de R Mongolite) para tu TFG?

Hay un Manual de Usuario bastante bueno Mongolite User Manual, donde precisamente tiene un capítulo para crear la base de datos usando ficheros .json Chapter 5 Import / Export

Todas estas automatizaciones y desarrollos son muy buenos para el TFG....me avisas cualquier cosa.

rocioagmi commented 1 month ago

Hola @ajcanepa , Respecto a la automatización me parece un punto muy interesante y mientras lo he estado intentando implementar me han surgido algunos problemas, primero tuve que crearme otra sesión en mi portátil donde usar RStudio para que la dirección del directorio de trabajo no tuviese tildes, ya que mi usuario lleva una. Luego a la hora de usar la función del paquete R Mongolite tengo el problema de que tengo dos enlaces por muestra (una para cada hebra) para descargar la información. Mi idea era, descargarme el script tsv, en el que aparece tal cual la tabla que vemos al entrar en la base de datos, e ir recorriendo en bucle la columna donde se encuentran los 2 enlaces de descarga para cada muestra, separarlos y aplicarles la función de Mongolite para poder importarlos. Otro problema que se me presenta es que al no usar Rstudio en la cuenta del administrador del portátil, no lo interpreta como un tsv y se me guarda como un txt, entonces no tengo forma de acceder a los enlaces como filas de una columna.

Siento la tardanza de mi respuesta. Muchas gracias de antemano.

ajcanepa commented 1 month ago

Hola @rocioagmi, my buenas. Intento separar los problemas en puntos:

Dirección del directorio de trabajo no tuviese tildes. Ya en fuentes de datos vimos el problema de los caracteres extraños en las rutas de ficheros. Aún así, si sigues trabajando con windows existe un problema entre "Pythonpath" y windows que auqnue aparezca, no le hagas mucho caso. Lo importante eso sí, es que las rutas sean lo más planas (sin caracteres extraños) y sin espacios en blanco, para eso puedes usar la nomenclatura CamelCase o bien _Snakecase.
Dos enlaces por muestra. No entiendo muy bien la problemática de esto, ya que puedes almacenar ambas cadenas por separado con un identificador (que ya lo tendrá). Lo del script tsv, tampoco lo pillo porque un script es un documento que almacena código de algún lengauje de programación y no almacena información como dices tú que contiene la tabla (tabla de qué?). Quizás no estaría de más que hicieras (si aún no lo tienes hecho) un esquema de los pasos que estás siguiendo. Al final lo que necesitas es consultar los datos y si están disponibles en más de un formato (salvo que hablemos de centenas de gigabytes) puedes implementar el acceso a uno de esos formatos, pero dando la opción de que el usuario guarde (o no) el resto de formatos. Quizás @SoniaRamosGomez entiende mejor lo que te está pasando, pero yo no veo el problema de trabajar con los datos y tener almacenadas las dos hebras de manera independiente...(igual me perdí en esto).
TSV. Los problemas con los TSV no son tal. Al final y como vimos en fuentes de datos un .tsv o un .csv no son más que .txt a los que se les ha dado un separador de campos específico (tabulación para tsv y comas para csv). Nada tiene que ver con RStudio (la IDE que usas) ni con R (el lenguaje de programación), sino en cómo windows está manejando los archivos. Aún así, con código de R, tu escapas a eso y los puedes leer/importar como quieras. Dale una mirada a la función read_delim() del paquete readr (ver aquí).

Espero haber ayudado y si necesitas que nos reunamos nos avisas; a lo mejor se necesita una reunión en la que estemos todos.

Saludos,

SoniaRamosGomez commented 1 month ago

Buenos días @rocioagmi , Obviamente sería muy útil tener un sistema de descarga de los datos. Nos interesan fundamentalemente los datos en formato fasta (fastq.gz) y, para que sean más fiables, debería haber dos ficheros por cada muestra (Sample Accession). Normalmente vienen codificados con el mismo nombre de la "Run Acession" y _1 para la hebra forward, _2 para la hebra reverse. Necesitamos ambas hebras para el análisis, esto nos permite comprobar si hay regiones a eliminar o coberturas.

No sé si he ayudado.

ajcanepa commented 1 month ago

[like] ANTONIO JESUS CANEPA ONETO reacted to your message:

From: SoniaRamosGomez @.> Sent: Wednesday, October 9, 2024 11:42:08 AM To: rocioagmi/TFG @.> Cc: ANTONIO JESUS CANEPA ONETO @.>; Mention @.> Subject: Re: [rocioagmi/TFG] Descarga de los datos de la BBDD (Issue #5)

Buenos días @rocioagmihttps://github.com/rocioagmi , Obviamente sería muy útil tener un sistema de descarga de los datos. Nos interesan fundamentalemente los datos en formato fasta (fastq.gz) y, para que sean más fiables, debería haber dos ficheros por cada muestra (Sample Accession). Normalmente vienen codificados con el mismo nombre de la "Run Acession" y _1 para la hebra forward, _2 para la hebra reverse. Necesitamos ambas hebras para el análisis, esto nos permite comprobar si hay regiones a eliminar o coberturas.

No sé si he ayudado.

— Reply to this email directly, view it on GitHubhttps://github.com/rocioagmi/TFG/issues/5#issuecomment-2402087291, or unsubscribehttps://github.com/notifications/unsubscribe-auth/ACRC4QEZMUKQ2FARJ44FHFDZ2UJBBAVCNFSM6AAAAABPHHLFA2VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDIMBSGA4DOMRZGE. You are receiving this because you were mentioned.Message ID: @.***>

rocioagmi commented 1 month ago

Buenos días @SoniaRamosGomez y @ajcanepa, Sí, muchas gracias. Entiendo lo que me decís acerca de la automatización de la descarga de los datos y la necesidad de tener los dos archivos fasta.gz por cada muestra. He estado buscando API y paquetes R que nos sirvan para la descarga de los datos directamente desde el ENA. Encontré un paquete de R en github RENA pero no estoy consiguiendo instalarlo, he entendido que permite descargar archivos del ENA a través del número de acceso al estudio o las secuencias. También encontré una API para la descarga de archivos tanto del ENA como del SRA del NCBI fastq-dl, no está diseñada para R pero podemos usarla para obtener los datos y luego ya usarlos dentro de R. Por último he encontrado he encontrado una guía del ENA sobre cómo descargar archivos de datos pero no entiendo bien cómo podría integrarla en el código en R,. Así que por el momento voy a seguir investigando si hay más opciones.
Muchas gracias

ajcanepa commented 1 month ago

Buenos días @SoniaRamosGomez y @ajcanepa, Sí, muchas gracias. Entiendo lo que me decís acerca de la automatización de la descarga de los datos y la necesidad de tener los dos archivos fasta.gz por cada muestra. He estado buscando API y paquetes R que nos sirvan para la descarga de los datos directamente desde el ENA. Encontré un paquete de R en github RENA pero no estoy consiguiendo instalarlo, he entendido que permite descargar archivos del ENA a través del número de acceso al estudio o las secuencias. También encontré una API para la descarga de archivos tanto del ENA como del SRA del NCBI fastq-dl, no está diseñada para R pero podemos usarla para obtener los datos y luego ya usarlos dentro de R. Por último he encontrado he encontrado una guía del ENA sobre cómo descargar archivos de datos pero no entiendo bien cómo podría integrarla en el código en R,. Así que por el momento voy a seguir investigando si hay más opciones. Muchas gracias

Hola @rocioagmi , buenas. Estoy corto de tiempo ahora mismo, entonces te responderé a modo general. Está estupendo que uses paquetes que tengan implementadas ciertas funcionalidades (descarga, visualización, etc.); pero claramente no todo lo que necesitas estará implementado.

Además como futura Ingeniera de la salud, crear tus propias herramientas es "lo suyo". Si miras/lees en las mismas páginas que nos has enviado, te muestran como descargar los datos usando un comando bash llamado wget. https://ena-docs.readthedocs.io/en/latest/retrieval/file-download.html#using-wget.

Este mismo comando lo puedes "emular" con la función base de R download.file, de tal manera que con el código que te paso ahora podrías hacer la descarga:

# Especifica la URL del archivo .fastq.gz en ENA
url <- "ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR164/ERR164407/ERR164407.fastq.gz"

# Especifica el nombre del archivo de destino
destfile <- "ERR164407.fastq.gz"

# Descarga el archivo
download.file(url, destfile, mode = "wb")

Entonces, no siempre estará la función que necesitas, pero a partir de este código puedes crear tú misma una función que pasándole a el objeto url una lista de archivos ".fastq.gz", a través de un for loop te los descargue todos.....

¿me explico?

SoniaRamosGomez commented 1 month ago

Buenos días @rocioagmi y @ajcanepa , Creo que en esto no puedo ayudar pero, si @ajcanepa puede atenderte yo intentaré acudir por si puedo ayudar en algún aspecto.

rocioagmi commented 1 month ago

Buenos días @ajcanepa y @SoniaRamosGomez , Como tal la implementación de la descarga automatizada de los datos la tengo hecha, el problema que estoy teniendo es conseguir que se me suban los cambios a GitHub. De forma resumida, lo que he hecho es que el usuario, una vez ya sabe qué datos de qué estudio quiere descargarse dentro del ENA, se descargue el informe que aparece junto a los datos. A continuación, al ejecutarse el código te pide que introduzcas la dirección donde tienes descargado el informe en el ordenador y a partir de ahí, R lee el informe y extrae los enlaces para descargar las muestras y las descarga. Es una forma de hacerlo, pero sólo funciona para la base de datos del ENA. Un saludo

ajcanepa commented 1 month ago

De acuerdo @rocioagmi. En principio me parece bien que esté automatizado, quizás hoy cuando nos juntemos y veamos el problema de los cambios en Github te pregunto un par de cosas, más pero en principio este es el tipo de desarrollo (ojo que no será el único) que desde la informática puedes aportar en tu TFG. Que sirva para solo una base de datos (ENA en este caso), no lo veo como un problema si vamos a desarrollar más cosas dentro de los datos que ofrece ENA. Es más, quizás en la sección del TFG de líneas futuras, se puede poner la implementación de esta función para oitras BBDD de tal manera que luego de la descarga se "conecten" con tu pipeline y sea útil, igual @SoniaRamosGomez nos puede comentar algo más, pero de momento (yo) no lo veo prioritario. Nos vemos!

rocioagmi commented 1 month ago

Hola @ajcanepa y @SoniaRamosGomez, El código correspondiente a esta issue esta creado y funciona correctamente. En concreto he creado una función que a partir del número de acceso al proyecto ENA descargue los datos. Con ello dejo cerrada esta issue. Un saludo

rocioagmi / TFG

Descarga de los datos de la BBDD #5