nf-core / test-datasets

Test data to be used for automated testing with the nf-core pipelines
https://nf-co.re
MIT License
106 stars 354 forks source link

data set for delly containing INDELS #1322

Open lindenb opened 2 months ago

lindenb commented 2 months ago

As discussed here: https://nfcore.slack.com/archives/C02L5UB4Y9G/p1725656039950949 this is a set of data for delly but it might be also interesting for any SV/DEL application.

It contains a set of BAMS containing a DEL/DUP/INV and WT

As the dataset was not really an illumina dataset, I put things in a wgsim folder.

The Attachment Makefile.txt contains the Makefile that was used to generate the data.

MT192765.1 (29.8Kbp)
>    24.1 │              ▂                           ▂                                   ▇     ▅                                     ▁  ▅  █                 █         ▁                             │ Number of reads: 8000
>    21.4 │    ▁ █       █ ▇     █  ▇        ▅  ▆    █ ▁▅ ▁▅                          ▁▆ █ ▃   █                    █              ▁ █ ▇█▃▆█         █    ▂  █ █▂  ▄▄  █                             │ 
>    18.7 │    █▂█▃▂    ▂█ █▅ ▂  █▃ █▅    ▂  █▆ █▁▁▅ █ ██ ██      █ ▅▁    ▁  ▃    ▃ █▄██▃█ █▅ ▇█▆▂ ▃       ▂        █  ▆ ▁▇  ▆  ▁  █▁█▇█████  ▂   █ ▂█ ▇▃▂█▇▅█ ██ ▅██▂ █▅ ▇▆█ ▁▁ ▁ ▂█ █     ▆▅▂▄▆█   │ Covered bases:   29.8Kbp
>    16.0 │   ██████▃▃▇▆██▃██▅█▁▆██▅██▃▄  █ ▄██ ████ █ █████▂▁▇▃▂ █▅██▅▆  █ ▇█ ▇ ▄█ ██████▅██▆████▃█ ▃ ▂▅  █      ▄ █▄ █▅██ ▂█ ▃█ ▃█████████▇███ ▇█ ██▇███████▄██▂████ ██████▄██ █ ██▄█▃▆  ▃██████   │ Percent covered: 99.92%
>    13.4 │   ██████████████████████████▅▇█▃██████████▇█████████████████▆▇█▂██▄█ ███████████████████▄█▂██ ██▁▇▆▃▅▇█▅██▇███████▇██▅████████████████████████████████████▅█████████▃████████▂▁███████▁  │ Mean coverage:   18.8x
>    10.7 │ ▁ ██████████████████████████████████████████████████████████████████▆██████████████████████████████████████████████████████████████████████████████████████████████████████████████████  │ Mean baseQ:      17
>     8.0 │ █▆██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▆│ Mean mapQ:       60
>     5.3 │▁█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ 
>     2.7 │██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo bin width: 160bp
>     0.0 │██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo max cov:   26.725
          1        1.6K      3.2K      4.8K      6.4K      8.0K      9.6K     11.2K     12.8K     14.4K     16.0K     17.6K     19.2K     20.8K     22.4K     24.0K     25.6K     27.2K           29.8K  

MT192765.1 (29.8Kbp)
>    28.7 │                                  ▃                                                                                                               █                                       │ Number of reads: 7974
>    25.5 │                               ▃  █                                           ▃                                           ▇                       █  ▁             ▃                      │ 
>    22.3 │    ▂        ▁▃ ▂  ▅  █  ▆  ▂  █ ▅██ █▂   ▆ ▄▆ ▁                            ▁▁█▂▂▁  ▂ ▃     ▂                           ▄ █▄▅ ▇               ▁▆ ▄█  █ ▄▅ ▂  ▆  ▄  █▁ ▁    █ ▃   ▁        │ Covered bases:   29.8Kbp
>    19.1 │    █ ▅▄  ▁  ██▆█▅ █  █▂▂█▄▄█ ▃█ ███▂██ ▅ █ ██ █▄                           ██████▇██ █   ▄ █ ▃▄       ▁ ▂ █▁ ██  ▇  ▃▇▁█▄███▄█▆▂▃  ▃ ▁▆ ▃▁▆▁ ██▄██▂██▁██▃█▁ █  █▃ ██ █▆  ██ █   █▃▂▂█    │ Percent covered: 99.96%
>    15.9 │   ▁█▁██  █ ▇█████▃█ ▅██████████▇██████▇█▇███████                          ▅█████████ █▅▃▄█▅█▇██▅  ▆ ▇▂█▂█ ██ ██▅▄█▃▅█████████████▃▆█ ███████ ██████████████▄██▁█████▇██▅███▅█▂ ▆█████▁   │ Mean coverage:   18.7x
>    12.8 │   █████▇▇█▆█████████████████████████████████████                         ▆██████████▆███████████▆███████████████████████████████████▄█████████████████████████████████████████▄███████   │ Mean baseQ:      17
>     9.6 │ ▂▅██████████████████████████████████████████████  ▂   ▆               ▂ ▁█████████████████████████████████████████████████████████████████████████████████████████████████████████████▄▆ │ Mean mapQ:       60
>     6.4 │▄████████████████████████████████████████████████▂▇█▂▆▃█▃█▆▇▅ ▇▇▁▆▇▂█▁▆█▆████████████████████████████████████████████████████████████████████████████████████████████████████████████████▆│ 
>     3.2 │█████████████████████████████████████████████████████████████▇████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo bin width: 160bp
>     0.0 │██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo max cov:   31.9
          1        1.6K      3.2K      4.8K      6.4K      8.0K      9.6K     11.2K     12.8K     14.4K     16.0K     17.6K     19.2K     20.8K     22.4K     24.0K     25.6K     27.2K           29.8K  

MT192765.1 (29.8Kbp)
>    26.5 │                                                                                                                                          █                                               │ Number of reads: 7975
>    23.5 │                         ▃ ▃                                                    ▂                                         █ █   ▄         █                 ▂                             │ 
>    20.6 │    ▃  ▁      █ ▆     ▄ ▃█ █  ▄▅ ▆▆▄ ▁    ▃  █         ▂ ▃▁                   ▅ █ ▂     ▃ ▂              █ ▁   █ ▁     ▄ ▂█▂█▇▆██         █  ▁    ▁  ▄ ▅▇▂▁ █    ▃ ▂    ▂  ▁          ▆   │ Covered bases:   29.8Kbp
>    17.6 │    █ ▄█ ▅ ▁▇▄█▁█  ▆ ▃█▁██ █▄▆██▇███▂█▅ ▇ █ ▃██▄▅▅ ▂█  █ ██ ▁▃  ▁  ▃▂  ▅  █ ▄▄█▁█▁█▆▇█▃ █ █ ▂   ▄▂     ▅▂█ █▆▇▆█▁█▄▄▆  █▁████████▄▇▅   ▇  █▃▅█ ▆▄ █ ▂█ ████ █  ▇▃█ ██ █ █  █        ▅ █   │ Percent covered: 99.95%
>    14.7 │   ██▃██ █▆██████▅▃█ █████▄████████████▇█▅█▅█████████▃▃█ ██ ██ ▁█████ ▃█▁▂█▁███████████▁█▆█▄█▆▃▂██▄▇▄▅▃███▆██████████▂▁█████████████▆ ▆█▅▆████▁██▃█▇██▁████▃█▆▁████████ ██▃█ ▇▇▃▃▃▁██▄█   │ Mean coverage:   18.7x
>    11.8 │   █████████████████▅██████████████████████████████████████▅██▄██████▄█████████████████████████████████████████████████████████████████████████████████████████████████▆████▅██████████▂  │ Mean baseQ:      17
>     8.8 │ ▃▅█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▂▆│ Mean mapQ:       60
>     5.9 │▃█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ 
>     2.9 │██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo bin width: 160bp
>     0.0 │██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████│ Histo max cov:   29.413
          1        1.6K      3.2K      4.8K      6.4K      8.0K      9.6K     11.2K     12.8K     14.4K     16.0K     17.6K     19.2K     20.8K     22.4K     24.0K     25.6K     27.2K           29.8K  

MT192765.1 (29.8Kbp)
>    46.9 │                                                                                                     ▂▆ ▆▅ █▄▁▂▃▂ ▂  ▁                                                                    │ Number of reads: 7979
>    41.7 │                                                                                                    ▄██▇██▅██████▇█▂ █                                                                    │ 
>    36.5 │                                                                                                    ████████████████▃█                                                                    │ Covered bases:   29.8Kbp
>    31.3 │                                                                                                    ███████████████████                                                                   │ Percent covered: 99.95%
>    26.1 │                                                                                                    ███████████████████                                                                   │ Mean coverage:   18.7x
>    20.9 │                                                                                    ▄              ████████████████████ ▁       ▂                                                         │ Mean baseQ:      17
>    15.6 │    ▃ ▄ ▁   ▄ ▇▁▆▅▂▁▁ ▄  ▇ ▂      ▁▁ ▂    ▂  ▄  ▂      ▁ ▂  ▁       ▄ ▄▃ ▅▅ ▅▆▃▁▅▁▁▂█▇▁▆▅▂▂ ▁      ████████████████████ █ ▂▃▄▃▅▄█▂ ▄▃ ▃▂ ▃▅▁▆▁▂▂  ▆ ▁  ▁▅     ▁▂▁█▂ ▆▂  ▂        ▃  ▆▂    │ Mean mapQ:       60
>    10.4 │   ▅███▆█▅▃▅█▅█████████▆▂█▆█▃▆▆▆▅▅██▅█▆█▄▆█ ▆█▁██▅▇▆█▅▂█▆█▁██▃██▃██▇█▅██ ██▆███████████████▄█▅ ▃▆▄█████████████████████ ██████████▅██ ██▅██████████▇██▆██▅█▁▆▇█████▆██▅▄█▄▂▆▃▄▂▅▃█▆▇██▄   │ 
>     5.2 │ ▅▆████████████████████████████████████████▇██████████████████████████████████████████████████▆████████████████████████▆█████████████▇██████████████████████████████████████████████████▃ │ Histo bin width: 160bp
>     0.0 │▇████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▇│ Histo max cov:   52.138
          1        1.6K      3.2K      4.8K      6.4K      8.0K      9.6K     11.2K     12.8K     14.4K     16.0K     17.6K     19.2K     20.8K     22.4K     24.0K     25.6K     27.2K           29.8K  

while I was here I added a valid gff3 (the gff3 for srarscov in modules is not valid...), a gtf and I called and annotated the 4 bams with bcftools and hapcaller.

Thanks !