jtamames / SqueezeMeta

A complete pipeline for metagenomic analysis
GNU General Public License v3.0
346 stars 81 forks source link

SQM with Flye assembly #799

Closed inej90 closed 2 months ago

inej90 commented 4 months ago

Buenos días,

Estoy analizando 38 muestras sacadas con Oxford Nanopore Technology. Mis secuencias son de una longitud media de 2000 bp y una calidad 13. Usé el comando siguiente para hacer un coensamblaje pero lleva desde el 19 de febrero corriendo y sigue con el mismo paso (step 1) y no ha generado todavía nada y me ha parecido un poco raro esto sobre todo que pone 0 metagenomes found. El comando usado es:

(SqueezeMeta) usuario@usuario:/base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all$ SqueezeMeta.pl -p PURIN_int_all_flye -m coassembly -s /base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/ -f /base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/purin_int_all -map minimap2-ont -a flye -t 32


SqueezeMeta v1.6.3, September 2023 - (c) J. Tamames, F. Puente-Sánchez CNB-CSIC, Madrid, SPAIN

Please cite: Tamames & Puente-Sanchez, Frontiers in Microbiology 9, 3349 (2019). doi: https://doi.org/10.3389/fmicb.2018.03349

Run started Mon Feb 19 10:50:36 2024 in coassembly mode 0 metagenomes found:

Now creating directories Reading configuration from /base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/PURIN_int_all_flye/SqueezeMeta_conf.pl [0 seconds]: STEP1 -> RUNNING ASSEMBLY: 01.run_all_assemblies.pl (flye) Concatenating all samples: pair1: cat > /base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/PURIN_int_all_flye/data/raw_fastq/par1.fasta

Le agradecería mucho si me puede indicar dónde está el fallo. Cuando veo los archivos progress y syslog, me da lo siguiente:

(SqueezeMeta) usuario@usuario:/base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/PURIN_int_all_flye$ more progress 1 01.run_all_assemblies.pl (flye) (SqueezeMeta) usuario@usuario:/base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/PURIN_int_all_flye$ more syslog Run started Mon Feb 19 10:50:36 2024 in coassembly mode

SqueezeMeta v1.6.3, September 2023 - (c) J. Tamames, F. Puente-Sánchez CNB-CSIC, Madrid, SPAIN

Please cite: Tamames & Puente-Sanchez, Frontiers in Microbiology 10.3389 (2019). doi: https://doi.org/10.3389/fmicb.2018.03349

Run started for PURIN_int_all_flye, Mon Feb 19 10:50:36 2024 Project: PURIN_int_all_flye Map file: /base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/ Fastq directory: /base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/purin_int_all Command: /pipe/soft/miniconda/miniconda3/envs/SqueezeMeta/bin/SqueezeMeta.pl -p PURIN_int_all_flye -m coassembly -s /base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/ -f /base_datos/librerias/librerias_or iginales/Sistema_intensivo_SUP/purin_int_sup_all/purin_int_all -map minimap2-ont -a flye -t 32 [0 seconds]: STEP0 -> SqueezeMeta.pl COGS; KEGG; PFAM;

[0 seconds]: STEP1 -> 01.run_all_assemblies.pl (flye) Preparing files for pair1: cat > /base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/PURIN_int_all_flye/data/raw_fastq/par1.fasta

Muchas gracias de antemano.

Un saludo.

jtamames commented 4 months ago

Hola El error es que no le estás dando un fichero de muestras. La opción -s está apuntando a un directorio (/base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/) y no a un fichero. Revisa la documentación y el manual del programa para ver como crer el fichero de muestras. Saludos

inej90 commented 4 months ago

El error es que he cambiado la ruta del archivo que lleva las muestras con la dirección de la ruta a las secuencias. Ahora creo que lo está haciendo bien. Muchas gracias por avisarme. Un saludo.

inej90 commented 4 months ago

Hola de nuevo Javier,

Parece que tengo un problema con la memoria de RAM aunque tengo acceso a 43 Gb. Además puse en el comando -t 32 para que use el máximo de threads. Aquí está el syslog:

(SqueezeMeta) usuario@usuario:/base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/PURIN_int_all_flye$ more syslog [2024-02-23 14:32:23] WARNING: --plasmids mode is no longer available. Command line option will be removed in the future versions [2024-02-23 14:32:24] INFO: Starting Flye 2.9-b1768 [2024-02-23 14:32:24] INFO: >>>STAGE: configure [2024-02-23 14:32:24] INFO: Configuring run [2024-02-23 14:50:06] INFO: Total read length: 29450813473 [2024-02-23 14:50:06] INFO: Input genome size: 2600000000 [2024-02-23 14:50:06] INFO: Estimated coverage: 11 [2024-02-23 14:50:06] INFO: Reads N50/N90: 6939 / 812 [2024-02-23 14:50:06] INFO: Minimum overlap set to 1000 [2024-02-23 14:50:06] INFO: >>>STAGE: assembly [2024-02-23 14:50:06] INFO: Assembling disjointigs [2024-02-23 14:50:06] INFO: Reading sequences [2024-02-23 14:57:40] INFO: Counting k-mers: 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% [2024-02-23 15:22:09] INFO: Filling index table (1/2) 0% 10% [2024-02-23 15:28:46] ERROR: Looks like the system ran out of memory [2024-02-23 15:28:46] ERROR: Command '['flye-modules', 'assemble', '--reads', '/base_datos/librerias/librerias_originales/SiStopping in STEP1 -> 01.run_all_assemblies.pl. Program finished abnormally


System information:


Tree for the project: stema_intensivo_SUP/purin_int_sup_all/PURIN_int_all_flye/data/flye/00-assembly/draft_assembly.fasta', '--config', '/pipe/soft/miniconda/miniconda3/envs/SqueezeMeta/SqueezeMeta/bin/Flye-2.9/flye/config/bin_cfg/asm_raw_reads.cfg', '--log', '/base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/PURIN_int_all_flye/data/flye/flye.log', '--threads', '32', '--meta', '--genome-size', '2600000000', '--min-ovlp', '1000']' died with <Signals.SIGKILL: 9

. [2024-02-23 15:28:46] ERROR: Pipeline aborted Linux usuario 5.15.0-89-generic #99-Ubuntu SMP Mon Oct 30 20:42:41 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux [4.0K Feb 23 14:24] /base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/PURIN_int_all_flye ├── [8.3K Feb 23 14:24] SqueezeMeta_conf.pl ├── [ 35 Feb 23 14:24] creator.txt ├── [4.0K Feb 23 14:32] data │   ├── [1.2K Feb 23 14:24] 00.PURIN_int_all_flye.samples │   ├── [4.0K Feb 23 14:50] flye │   │   ├── [4.0K Feb 23 14:50] 00-assembly │   │   ├── [6.2K Feb 23 15:28] flye.log │   │   └── [ 92 Feb 23 14:50] params.json │   └── [4.0K Feb 23 14:24] raw_fastq │   └── [ 28G Feb 23 14:32] par1.fastq.gz ├── [4.0K Feb 23 14:24] ext_tables ├── [4.0K Feb 23 14:24] intermediate │   └── [4.0K Feb 23 14:24] binners ├── [ 121 Feb 23 14:24] methods.txt ├── [3.1K Feb 23 14:24] parameters.pl ├── [ 34 Feb 23 14:24] progress ├── [4.0K Feb 23 14:24] results ├── [1.8K Feb 23 15:28] syslog └── [4.0K Feb 23 14:24] temp

10 directories, 10 files (SqueezeMeta) usuario@usuario:/base_datos/librerias/librerias_originales/Sistema_intensivo_SUP/purin_int_sup_all/PURIN_int_all_flye$ free -mh total used free shared buff/cache available Mem: 44Gi 364Mi 39Gi 1.0Mi 4.0Gi 43Gi Swap: 0B 0B 0B

NB: al comando anterior añadí también --D para hacer el doble alineamiento. ¿Puede ser por esto?

¿Con una RAM de 43 Gb puedo sacar algo de los 38 metagenomas que tengo o hay que pasar a un suercomputador con más RAM?

Muchas gracias.

Un saludo.

fpusan commented 4 months ago

Hola de nuevo, perdón por la respuesta tardía. Seguramente no tengas suficiente RAM para hacer un coensamblaje. El hecho the pasar -D no debería de afectar en esto. El manual de flye menciona lo siguiente

To reduce memory consumption for large genome assemblies, you can use a subset of the longest reads for initial disjointig assembly by specifying --asm-coverage and --genome-size options. Typically, 40x coverage is enough to produce good disjointigs.

Igual podría ayudar, pero no estoy seguro de si es buena idea o no porque no soy experto usando flye. Si no pues no quedaría otra que ir a un nodo con más RAM, o hacer ensamblajes individuales

fpusan commented 2 months ago

Closing due to lack of activity, feel free to reopen