EBI-Metagenomics / genomes-catalogue-pipeline

MGnify genome analysis pipeline
Other
97 stars 21 forks source link

Optimise post processing #13

Closed KateSakharova closed 2 years ago

KateSakharova commented 2 years ago

Output directory structure without GTDB-Tk:

├── GFF
│   ├── MGYG000000001.gff.gz
│   ├── MGYG000000002.gff.gz
│   ├── MGYG000000003.gff.gz
│   ├── MGYG000000004.gff.gz
│   ├── MGYG000000005.gff.gz
│   ├── MGYG000000006.gff.gz
│   └── MGYG000000007.gff.gz
├── intermediate_files
│   ├── Cdb.csv
│   ├── clusters_split.txt
│   ├── extra_weight_table.txt
│   ├── gunc_report_completed.txt
│   ├── gunc_report_failed.txt
│   ├── Mdb.csv
│   ├── names.tsv
│   ├── renamed_download.csv
│   └── Sdb.csv
├── MGYG000000004
│   └── genome
│       ├── MGYG000000004_annotation_coverage.tsv
│       ├── MGYG000000004_cazy_summary.tsv
│       ├── MGYG000000004_cog_summary.tsv
│       ├── MGYG000000004_eggNOG.tsv
│       ├── MGYG000000004.faa
│       ├── MGYG000000004.fna
│       ├── MGYG000000004.fna.fai
│       ├── MGYG000000004.gff
│       ├── MGYG000000004_InterProScan.tsv
│       ├── MGYG000000004_kegg_classes.tsv
│       └── MGYG000000004_kegg_modules.tsv
├── MGYG000000005
│   ├── genome
│   │   ├── MGYG000000005_annotation_coverage.tsv
│   │   ├── MGYG000000005_cazy_summary.tsv
│   │   ├── MGYG000000005_cog_summary.tsv
│   │   ├── MGYG000000005_eggNOG.tsv
│   │   ├── MGYG000000005.faa
│   │   ├── MGYG000000005.fna
│   │   ├── MGYG000000005.fna.fai
│   │   ├── MGYG000000005.gff
│   │   ├── MGYG000000005_InterProScan.tsv
│   │   ├── MGYG000000005_kegg_classes.tsv
│   │   └── MGYG000000005_kegg_modules.tsv
│   └── pan-genome
│       ├── gene_presence_absence.Rtab
│       ├── MGYG000000005.core_genes.txt
│       ├── MGYG000000005.pan-genome.fna
│       └── MGYG000000005_mashtree.nwk
├── MGYG000000006
│   └── genome
│       ├── MGYG000000006_annotation_coverage.tsv
│       ├── MGYG000000006_cazy_summary.tsv
│       ├── MGYG000000006_cog_summary.tsv
│       ├── MGYG000000006_eggNOG.tsv
│       ├── MGYG000000006.faa
│       ├── MGYG000000006.fna
│       ├── MGYG000000006.fna.fai
│       ├── MGYG000000006.gff
│       ├── MGYG000000006_InterProScan.tsv
│       ├── MGYG000000006_kegg_classes.tsv
│       └── MGYG000000006_kegg_modules.tsv
├── MGYG000000007
│   ├── genome
│   │   ├── MGYG000000007_annotation_coverage.tsv
│   │   ├── MGYG000000007_cazy_summary.tsv
│   │   ├── MGYG000000007_cog_summary.tsv
│   │   ├── MGYG000000007_eggNOG.tsv
│   │   ├── MGYG000000007.faa
│   │   ├── MGYG000000007.fna
│   │   ├── MGYG000000007.fna.fai
│   │   ├── MGYG000000007.gff
│   │   ├── MGYG000000007_InterProScan.tsv
│   │   ├── MGYG000000007_kegg_classes.tsv
│   │   └── MGYG000000007_kegg_modules.tsv
│   └── pan-genome
│       ├── gene_presence_absence.Rtab
│       ├── MGYG000000007.core_genes.txt
│       ├── MGYG000000007.pan-genome.fna
│       └── MGYG000000007_mashtree.nwk
├── mgyg_genomes
│   ├── MGYG000000001.fna
│   ├── MGYG000000002.fna
│   ├── MGYG000000003.fna
│   ├── MGYG000000004.fna
│   ├── MGYG000000005.fna
│   ├── MGYG000000006.fna
│   └── MGYG000000007.fna
├── panaroo_output
│   ├── MGYG000000005_panaroo
│   │   ├── combined_DNA_CDS.fasta
│   │   ├── combined_protein_cdhit_out.txt
│   │   ├── combined_protein_cdhit_out.txt.clstr
│   │   ├── combined_protein_CDS.fasta
│   │   ├── final_graph.gml
│   │   ├── gene_data.csv
│   │   ├── gene_presence_absence.csv
│   │   ├── gene_presence_absence_roary.csv
│   │   ├── gene_presence_absence.Rtab
│   │   ├── pan_genome_reference.fa
│   │   ├── pre_filt_graph.gml
│   │   ├── struct_presence_absence.Rtab
│   │   └── summary_statistics.txt
│   └── MGYG000000007_panaroo
│       ├── combined_DNA_CDS.fasta
│       ├── combined_protein_cdhit_out.txt
│       ├── combined_protein_cdhit_out.txt.clstr
│       ├── combined_protein_CDS.fasta
│       ├── final_graph.gml
│       ├── gene_data.csv
│       ├── gene_presence_absence.csv
│       ├── gene_presence_absence_roary.csv
│       ├── gene_presence_absence.Rtab
│       ├── pan_genome_reference.fa
│       ├── pre_filt_graph.gml
│       ├── struct_presence_absence.Rtab
│       └── summary_statistics.txt
├── protein_catalogue
│   ├── mmseqs_0.5_outdir
│   │   ├── mmseqs_cluster.db.0
...
│   │   └── mmseqs.db.source
│   ├── mmseqs_0.95_outdir
│   │   ├── mmseqs_cluster.db.0
...
│   │   └── mmseqs.db.source
│   ├── mmseqs_0.9_outdir
│   │   ├── mmseqs_cluster.db.0
...
│   │   ├── protein_catalogue-90_eggNOG.tsv
│   │   └── protein_catalogue-90_InterProScan.tsv
│   └── mmseqs_1.0_outdir
│       ├── mmseqs_cluster.db.0
...
│       └── mmseqs.db.source
├── rRNA_fastas
│   ├── MGYG000000001_fasta-results
│   │   └── MGYG000000001_rRNAs.fasta
│   ├── MGYG000000002_fasta-results
│   │   └── MGYG000000002_rRNAs.fasta
│   ├── MGYG000000003_fasta-results
│   ├── MGYG000000004_fasta-results
│   │   └── MGYG000000004_rRNAs.fasta
│   ├── MGYG000000005_fasta-results
│   ├── MGYG000000006_fasta-results
│   │   └── MGYG000000006_rRNAs.fasta
│   └── MGYG000000007_fasta-results
│       └── MGYG000000007_rRNAs.fasta
└── rRNA_outs
    ├── MGYG000000001_out-results
    │   ├── MGYG000000001_rRNAs.out
    │   └── MGYG000000001_tRNA_20aa.out
    ├── MGYG000000002_out-results
    │   ├── MGYG000000002_rRNAs.out
    │   └── MGYG000000002_tRNA_20aa.out
    ├── MGYG000000003_out-results
    │   ├── MGYG000000003_rRNAs.out
    │   └── MGYG000000003_tRNA_20aa.out
    ├── MGYG000000004_out-results
    │   ├── MGYG000000004_rRNAs.out
    │   └── MGYG000000004_tRNA_20aa.out
    ├── MGYG000000005_out-results
    │   ├── MGYG000000005_rRNAs.out
    │   └── MGYG000000005_tRNA_20aa.out
    ├── MGYG000000006_out-results
    │   ├── MGYG000000006_rRNAs.out
    │   └── MGYG000000006_tRNA_20aa.out
    └── MGYG000000007_out-results
        ├── MGYG000000007_rRNAs.out
        └── MGYG000000007_tRNA_20aa.out