marbl / ModDotPlot

MIT License
101 stars 7 forks source link

test sequence not as expected? #30

Closed KewinOgink closed 1 week ago

KewinOgink commented 1 month ago

Related to the https://github.com/marbl/ModDotPlot/issues/29 I thought to investigate by using test sequences.

I take a sequence from arabidopsis chr1 and copy paste a sequence 3 times,

%%writefile ../tmp/seq1.fa
>seq1
CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAAT
CTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTT
CTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTA
TTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGT
GGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAA
GCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTT
ATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTT
ACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTG
TAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGG
GATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAA
AGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTAT
TTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGC
TTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTC
AAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCG
TAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTAT
GATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACA
ATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGT
TTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCC
CCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAG
TTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTTTTGAGACATACTGAA
AAAAGTTGTAATTATTAATGATAGTTCTGTGATTCCTCCATGAATCACATCTGCTTGATT
TTTCTTTCATAAATTTATAAGTAATACATTCTTATAAAATGGTCAGAGAAACACCAAAGA
TCCCGAGATTTCTTCTCACTTACTTTTTTTCTATCTATCTAGATTATATAAATGAGATGT
TGAATTAGAGGAACCTTTGATTCAATGATCATAGAAAAATTAGGTAAAGAGTCAGTGTCG
TTATGTTATGGAAGATGTGAATGAAGTTTGACTTCTCATTGTATATGAGTAAAATCTTTT
CTTACAAGGGAAGTCCCCAATTGGTCAACATGTGAAAGCACGTGTCATGTTCTTACTTTT
GTTTGGGTAATCTTCTAATTACTGTATATGGAAGATGTGAATGAAGTTTTGGTCCTGAAT
GTGGCCAAGGTTCCGTCATTTGGAGATACGAAATCAAATCTCCTTTAAGATTTTGTTTTT
ATAATGTGTTCTTCCATCCACATCTATCTCCATATGATATGGACCATATCATACATCATC
ATTTGTCCAAATGCATGAATGAATTTGGAAATAGGTACGAGAATGCCAACAATGACAAGA
AGGGATCAAAGACAGTTTTTAAAACAATATTTTACAGGGTTTTAATCTAATTCTAAGTTT
TGGTCACTCACTTTGTTAAAAGAATAATTCAGTGTCTGGACACTAAAATCTTCCAAAAAC
CCCATATACATATATGCTATTTCGATACTTATATTTATTTACTCAGCATAAAAAATATTA
ACCATGTATTCATAGTAAAATGTTTCATGTGATATCAAACCAGCGACAACAAAAGTATTA
TTCCCCTCATTATGTTTGACTCCTATTATATTTTTATTTTAATTTTTTTCACTATCATCT
TTCTTGCAATGAAAGTCCCATATATTGGTCAACATTTCAAACCACTTGTTCTCTTTTATG
TTTTGGTAAGAGCTATCTTCTAAATTTATAATACGCATAAATTCAAAAGTAAAAGAAAAT
TTTGGTCATGAATGTTGTTTAAGTCATTTGGAGATACGAAATCAAATCTCCTTGTAGATT
%%writefile ../tmp/seq2.fa
>seq2
CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAAT
CTTTAAATCCTACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTT
CTCTGGTTGAAAATCATTGTGTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTA
TTGTTGTGTGTAGATTTTTTAAAAATATCATTTGAGGTCAATACAAATCCTATTTCTTGT
GGTTTTCTTTCCTTCACTTAGCTATGGATGGTTTATCTTCATTTGTTATATTGGATACAA
GCTTTGCTACGATCTACATTTGGGAATGTGAGTCTCTTATTGTAACCTTAGGGTTGGTTT
ATCTCAAGAATCTTATTAATTGTTTGGACTGTTTATGTTTGGACATTTATTGTCATTCTT
ACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTG
TAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGG
GATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAA
AGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTAT
TTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGC
TTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTC
AAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCG
TAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTAT
GATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACA
ATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGT
TTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCC
ACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTG
TAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGG
GATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAA
AGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTAT
TTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGC
TTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTC
AAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCG
TAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTAT
GATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACA
ATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGT
TTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCC
ACTCCTTTGTGGAAATGTTTGTTCTATCAATTTATCTTTTGTGGGAAAATTATTTAGTTG
TAGGGATGAAGTCTTTCTTCGTTGTTGTTACGCTTGTCATCTCATCTCTCAATGATATGG
GATGGTCCTTTAGCATTTATTCTGAAGTTCTTCTGCTTGATGATTTTATCCTTAGCCAAA
AGGATTGGTGGTTTGAAGACACATCATATCAAAAAAGCTATCGCCTCGACGATGCTCTAT
TTCTATCCTTGTAGCACACATTTTGGCACTCAAAAAAGTATTTTTAGATGTTTGTTTTGC
TTCTTTGAAGTAGTTTCTCTTTGCAAAATTCCTCTTTTTTTAGAGTGATTTGGATGATTC
AAGACTTCTCGGTACTGCAAAGTTCTTCCGCCTGATTAATTATCCATTTTACCTTTGTCG
TAGATATTAGGTAATCTGTAAGTCAACTCATATACAACTCATAATTTAAAATAAAATTAT
GATCGACACACGTTTACACATAAAATCTGTAAATCAACTCATATACCCGTTATTCCCACA
ATCATATGCTTTCTAAAAGCAAAAGTATATGTCAACAATTGGTTATAAATTATTAGAAGT
TTTCCACTTATGACTTAAGAACTTGTGAAGCAGAAAGTGGCAACACCCCCCACCTCCCCC
CCCCCCCCCCACCCCCCAAATTGAGAAGTCAATTTTATATAATTTAATCAAATAAATAAG
TTTATGGTTAAGAGTTTTTTACTCTCTTTATTTTTCTTTTTCTTTTTGAGACATACTGAA
AAAAGTTGTAATTATTAATGATAGTTCTGTGATTCCTCCATGAATCACATCTGCTTGATT
TTTCTTTCATAAATTTATAAGTAATACATTCTTATAAAATGGTCAGAGAAACACCAAAGA
TCCCGAGATTTCTTCTCACTTACTTTTTTTCTATCTATCTAGATTATATAAATGAGATGT
TGAATTAGAGGAACCTTTGATTCAATGATCATAGAAAAATTAGGTAAAGAGTCAGTGTCG
TTATGTTATGGAAGATGTGAATGAAGTTTGACTTCTCATTGTATATGAGTAAAATCTTTT
CTTACAAGGGAAGTCCCCAATTGGTCAACATGTGAAAGCACGTGTCATGTTCTTACTTTT
GTTTGGGTAATCTTCTAATTACTGTATATGGAAGATGTGAATGAAGTTTTGGTCCTGAAT
GTGGCCAAGGTTCCGTCATTTGGAGATACGAAATCAAATCTCCTTTAAGATTTTGTTTTT
ATAATGTGTTCTTCCATCCACATCTATCTCCATATGATATGGACCATATCATACATCATC
ATTTGTCCAAATGCATGAATGAATTTGGAAATAGGTACGAGAATGCCAACAATGACAAGA
AGGGATCAAAGACAGTTTTTAAAACAATATTTTACAGGGTTTTAATCTAATTCTAAGTTT
TGGTCACTCACTTTGTTAAAAGAATAATTCAGTGTCTGGACACTAAAATCTTCCAAAAAC
CCCATATACATATATGCTATTTCGATACTTATATTTATTTACTCAGCATAAAAAATATTA
ACCATGTATTCATAGTAAAATGTTTCATGTGATATCAAACCAGCGACAACAAAAGTATTA
TTCCCCTCATTATGTTTGACTCCTATTATATTTTTATTTTAATTTTTTTCACTATCATCT
TTCTTGCAATGAAAGTCCCATATATTGGTCAACATTTCAAACCACTTGTTCTCTTTTATG
TTTTGGTAAGAGCTATCTTCTAAATTTATAATACGCATAAATTCAAAAGTAAAAGAAAAT
TTTGGTCATGAATGTTGTTTAAGTCATTTGGAGATACGAAATCAAATCTCCTTGTAGATT

so I would expect a dotplot like image

However, I get this image image

image why?

alexsweeten commented 2 weeks ago

Hi @KewinOgink,

Apologies for the late reply. There has been a version update (v0.8.4) that addresses some of the issues that lead up to this.

When running moddotplot static -f seq1.fa seq2.fa --identity 80 -w 10 --compare-only under the latest version, and using seq1 and seq2 you've linked above, this is my result:

seq1_seq2

This is what you expected to see. As a heads up, ModDotPlot is recommended to be used only with sequences > 10kb. You should also not set --identity below 80, nor set -w below 10.

Best, Alex

KewinOgink commented 1 week ago

thanks a lot!