rocioagmi / TFG

0 stars 0 forks source link

Descripción de las BB DD #2

Closed rocioagmi closed 1 month ago

rocioagmi commented 2 months ago

Las bases de datos que aparecen en los artículos que he ido revisando son:

  1. En el artículo Alterations of the Fecal Microbiota in Chinese Patients With Multiple Sclerosis se puede acceder a los datos desde el SRA de GenBank dentro del número de acceso SRP258890:

    • Hay 55 muestras, 22 de pacientes con EM y 33 de personas sanas.
    • Aclara cuáles pertenecen a personas con EM y cuáles no identificándolas con C (control) o MS (multiple sclerosis).
    • Pueden descargarse en formato fasta o fastq y cada secuencia pesa entre 12 y 17,5 MB.
  2. En el artículo Primary progressive multiple sclerosis in a Russian cohort: relationship with gut bacterial diversity las lecturas se depositaron en GenBank dentro del número de acceso SRP221464:

    • Hay 30 muestras, 15 de personas sanas y otras 15 de personas con esclerosis múltiple.
    • Aclara cuáles pertenecen a personas con EM y cuáles no etiquetando las muestras como _ sclerosis y healthy patient _
    • Pueden descargarse en formato fasta o fastq y cada secuencia pesa entre 17 y 50 MB.
  3. En el artículo Comparison of the Intestinal Microbiome of Italian Patients with Multiple Sclerosis and Their Household Relatives las secuencias fueron depositadas en GenBank con el número de acceso al estudio ID684124:

    • Hay 30 muestras, 15 de personas con EM y otras 15 de personas sanas.
    • Aclaran cuáles pertenecen a pacientes con EM y cuáles no.
    • Pueden descargarse en formato fasta o fastq, los pesos de la mayoría de muestras son similares, entre 7 y 27 MB, a excepción de 6 muestras que rondan los 100 kB.
  4. En el artículo CXCR3+ T cells in multiple sclerosis correlate with reduced diversity of the gut microbiome las secuencias se cargaron en el ENA bajo el siguiente número de acceso PRJEB34168:

    • Hay 65 muestras, 39 de personas sanas y 26 de pacientes con esclerosis múltiple.
    • Pueden descargarse los archivos de 3 formas y solo una de ellas hace distinción entre EM y sanos.
    • Pueden descargarse en formato fastq y cada muestra pesa distinto según en qué formato sea descargada, a modo general los pesos van de 5 a 51 MB.
  5. En el artículo Gut microbiome of treatment-naïve MS patients of different ethnicities early in disease course los metagenomas han sido depositados en el ENA bajo el número de acceso PRJEB28543:

    • Hay 192 muestras aunque en el estudio solo hablan de 127, 69 con EM y 68 sanos.
    • Pueden descargarse los archivos de 3 formas y solo una de ellas hace distinción entre EM y sanos.
    • Pueden descargarse en formato fastq y cada muestra pesa distinto según en qué formato sea descargada, a modo general los pesos van de 200 kB a 900 MB.
  6. En el artículo B-cell-depletion reverses dysbiosis of the microbiome in multiple sclerosis patients los conjuntos de datos generados y analizados se encuentran en el ENA con el número de acceso al proyecto PRJEB44538:

    • Hay 194 muestras.
    • No aclara qué muestras corresponden a personas sanas y cuales a personas con EM.
    • Pueden descargarse en formato fastq, dependiendo de cómo descarguemos los datos (hay 3 formas) cambia su tamaño, pero de forma general los pesos van de 5 a 21 MB.
  7. En el artículo The gut microbiota in multiple sclerosis varies with disease activity las lecturas de secuenciación filtradas están en el ENA en el número de acceso PRJEB51635:

    • Hay 625 muestras.
    • No aclara qué muestras corresponden a personas sanas y cuáles a personas con EM.
    • Pueden descargarse en formato fastq y BAM, los pesos entre muestras varían mucho, desde 8 MB hasta 3,5 GB.
  8. En el artículo Alterations in Circulating Fatty Acid Are Associated With Gut Microbiota Dysbiosis and Inflammation in Multiple Sclerosis las lecturas de secuencias se depositaron en el ENA bajo el número de acceso PRJNA633233:

    • Hay 35 muestras, todas ellas de pacientes con EM.
    • En el artículo menciona que se secuenció el ADN de 35 pacientes con EM, debido a que las muestras tampoco van marcadas supongo que las 35 son de personas que padecen la esclerosis múltiple.
    • Pueden descargarse en formato fastq y los pesos oscilan entre 5 y 18 MB.
  9. En el artículo Alterations of the human gut microbiome in multiple sclerosis las secuencias se cargaron dentro de BioProject con el número de acceso ID321051:

    • Hay 210 muestras, entre personas con EM tratadas y no tratadas, controles, etc.
    • Aclaran qué muestras pertenecen a personas con EM y cuales no. Dentro de las que tienen EM aclaran si estaban llevando a cabo un tratamiento o no, etc.
    • Pueden descargarse en formato fasta o fastq y cada muestra pesa entre 2 y 25 MB.
  10. En el artículo Multiple sclerosis patients have an altered gut mycobiome and increased fungal to bacterial richness los datos están disponibles en el SRA dentro del NCBI bajo el número de acceso PRJNA732670:

    • Hay 112 muestras.
    • Aclara la diferencia entre muestras de personas sanas y pacientes con MS, además de bacterias y hongos.
    • Pueden descargarse en formato fasta o fastq y cada muestra pesa entre 1 y 59 MB.
  11. En el artículo Dysbiosis in the Gut Microbiota of Patients with Multiple Sclerosis, with a Striking Depletion of Species Belonging to Clostridia XIVa and IV Clusters las secuencias V1-V2 del gen 16S rRNA se encuentran en DDBJ bajo los números de acceso DRA000672, DRA000673, DRA000675, DRA000676, DRA000678-DRA000684, DRA002866-DRA002874 para los 20 pacientes con esclerosis múltiple, y DRA002875-DRA002906 para los 20 sujetos sanos.

    • Hay 40 muestras.
    • Aclaran cuáles pertenecen a personas con EM y cuales no.
    • Acceder a los datos dentro de la base de datos DDBJ no es nada intuitivo, pero con los mismos números de acceso podemos encontrar la información en el NCBI y descargarla en formato fasta o fastq. El peso de cada muestra cambia mucho, cada una pesa entre 3 y 28 MB.

Opinión personal:

De entre todas las BBDD anteriormente mencionadas, las que me parecen mejores para extraer los datos son la 1, la 2 y la 4 porque tienen una cantidad buena de muestras, que vienen ya marcadas según si provienen de un paciente de esclerosis múltiple o no, y son de las que menos pesan en cuanto a MB.

Bases de datos de artículos cuyo acceso al texto completo estaba restringido:

  1. Molecular characterization of the gut microbiome in egyptian patients with remitting relapsing multiple sclerosis. No aparece dónde pueden obtenerse las secuencias.

  2. Gut Microbiome in Progressive Multiple Sclerosis. Los datos de las secuencias 16S rRNA se depositaron en BioProject bajo el número de acceso PRJNA721421:

    • Hay 456 muestras.
    • Aclaran cuales pertenecen a controles sanos y cuales a personas con EM.
    • Pueden descargarse en formato fasta o fastq y cada muestra pesa entre 754 kB y 32 MB.
  3. A probiotic modulates the microbiome and immunity in multiple sclerosis. No habla de dónde están los datos depositados.

  4. Gut microbiome of multiple sclerosis patients and paired household healthy controls reveal associations with disease risk and course.

  5. Household paired design reduces variance and increases power in multi-city gut microbiome study in multiple sclerosis.

    Los datos de los artículos 4 y 5 están en el ENA bajo el número de acceso ERP115476:

    • Hay 8211 muestras.
    • No aclara qué muestras pertenecen a personas con EM y cuáles no.
    • Pueden descargarse en formato fasta y los pesos de las muestras varían mucho, desde 0.2 kB hasta 300 MB.

Los artículos cuyas bases de datos podríamos obtener pidiéndoselas a los autores:

  1. Gut bacteria from multiple sclerosis patients modulate human T cells and exacerbate symptoms in mouse models.

  2. High frequency of intestinal TH17 cells correlates with microbiota alterations and disease activity in multiple sclerosis.

  3. Gut Microbiota as a Potential Predictive Biomarker in Relapsing-Remitting Multiple Sclerosis.

  4. Associations between the gut microbiota and host immune markers in pediatric multiple sclerosis and controls.

rocioagmi commented 1 month ago

Aquí tenéis el documento con la descripción de las BBDD @ajcanepa @SoniaRamosGomez

ajcanepa commented 1 month ago

Gracias @rocioagmi . Mirando un poco por encima, aunque luego en la siguiente reunión seguro que lo hablaremos con @SoniaRamosGomez, en general la mayoría de los conjuntos de datos se pueden descargar en FAST y/o FASTQ.

Por ende, te recomiendo que mientras definimos los conjuntos finales y cuadremos la siguiente reunión, vayas preparando la importación de datos FAST/FASTQ en R.

Te dejo un par de enlaces que te vendrán muy bien comenzar a trabajar con ellos.

Si tienes cualquier duda nos avisas.

Saludos, @ajcanepa

SoniaRamosGomez commented 1 month ago

Gracias @rocioagmi , He revisado la información de las BBDD. Es bastante descriptiva y estoy de acuerdo con la selección que haces y las recomendaciones de @ajcanepa . Me parece interesante la BBDD procedente del artículo 4 ya que es de las más descriptivas, tenemos varios tipos de archivos que pueden permitirnos hacer comprobaciones, el artículo es muy completo y la BBDD es europea. Por otra parte, he revisado los artículos y varios (p.e. 1, 3, 5 y 8) emplean también secuenciación de las regiones V3 y V4 del 16S, lo que puede ser interesante si queremos comparar, discutir, emplearlas con el objetivo de clasificar o predecir, etc. Por último, en el siguiente enlace pongo a disposición los artículos cuyo acceso tenía restringido @rocioagmi .

rocioagmi commented 1 month ago

Buenos días @ajcanepa @SoniaRamosGomez , Ya he añadido la información descriptiva sobre las bases de datos de los archivos a los que me dio acceso Sonia en el segundo apartado del archivo inicial. La verdad es que mi opinión personal no cambia ya que son demasiadas muestras, algunas muy poco descriptivas. Por otro lado, he mirado los enlaces que me mandó Antonio acerca de la importación de datos fasta/fastq.