Groups without sequence in pan_genome_reference.fa

carrere commented 4 years ago

Dear PANAROO team,

I started to use your tool (v1.1.2 installed through conda) few days ago and I think I found a bug (or something I do not understand :) ).

For some groups, I cannot find a reference sequence in the pan_genome_reference.fa. This groups contain only one gene (but other "singleton" groups have a sequence in the pan_genome_reference.fa so this is not the reason why I guess). And these genes are in the GFF files and gene_data.csv file.

## sample of gene_presence_absence_roary.csv lines describing groups without  reference sequence in pan_genome_reference.fa

Gene,Non-unique Gene name,Annotation,No. isolates,No. sequences,Avg sequences per isolate,Genome Fragment,Order within Fragment,Accessory Fragment,Accessory Order with Fragment,QC,Min group size nuc,Max group size nuc,Avg group size nuc,MYSP-0248,MYSP-0250,MYSP-0251,MYSP-0255,MYSP-0258,MYSP-0261,MYSP-0270,MYSP-0278,MYSP-0279,MYSP-0291,MYSP-0297,MYSP-0301,MYSP-0305,MYSP-0325,MYSP-0339,MYSP-0342,MYSP-0346,MYSP-0347,MYSP-0348,MYSP-0357,MYSP-0367
group_2992,,IS256 family transposase ISSod4,1,1,1,1,5674,,,,1203,1203,1203,,,,,,,MYSP-0270_00277,,,,,,,,,,,,,,
group_2997,,IS630 family transposase ISEc33,1,1,1,1,5679,,,,1032,1032,1032,,,,,,,MYSP-0270_00679,,,,,,,,,,,,,,
group_2998,,IS630 family transposase ISEc33,1,1,1,1,5680,,,,1032,1032,1032,,,,,,,MYSP-0270_00970,,,,,,,,,,,,,,
group_2999,,IS256 family transposase ISSod4,1,1,1,1,5681,,,,1203,1203,1203,,,,,,,MYSP-0270_01056,,,,,,,,,,,,,,
group_3000,,IS630 family transposase ISEc33,1,1,1,1,5682,,,,1032,1032,1032,,,,,,,MYSP-0270_01753,,,,,,,,,,,,,,
group_3001,,IS630 family transposase ISEc33,1,1,1,1,5683,,,,1032,1032,1032,,,,,,,MYSP-0270_01918,,,,,,,,,,,,,,
group_3002,,IS256 family transposase ISSod4,1,1,1,1,5684,,,,1203,1203,1203,,,,,,,MYSP-0270_01983,,,,,,,,,,,,,,
group_3003,,IS3 family transposase ISVisp4,1,1,1,1,5685,,,,396,396,396,,,,,,,MYSP-0270_02121,,,,,,,,,,,,,,
group_3004,,IS256 family transposase ISSod4,1,1,1,1,5686,,,,1203,1203,1203,,,,,,,MYSP-0270_02325,,,,,,,,,,,,,,
group_3009,xerC_2,Tyrosine recombinase XerC,1,1,1,1,5692,,,,1074,1074,1074,,,,,,,MYSP-0270_02400,,,,,,,,,,,,,,
group_3010,dnaG_2,DNA primase,1,1,1,1,5693,,,,3075,3075,3075,,,,,,,MYSP-0270_02401,,,,,,,,,,,,,,
group_3011,,hypothetical protein,1,1,1,1,5694,,,,399,399,399,,,,,,,MYSP-0270_02402,,,,,,,,,,,,,,
group_3012,symE_3,Endoribonuclease SymE,1,1,1,1,5695,,,,234,234,234,,,,,,,MYSP-0270_02403,,,,,,,,,,,,,,
group_3013,,hypothetical protein,1,1,1,1,5696,,,,378,378,378,,,,,,,MYSP-0270_02404,,,,,,,,,,,,,,
group_3015,,IS630 family transposase ISEc33,1,1,1,1,5698,,,,1032,1032,1032,,,,,,,MYSP-0270_02698,,,,,,,,,,,,,,

## group members are present in the source GFF files (PROKKA annotation):

MYSP-0270-1_arrow   prokka  gene    288601  289803  .   -   .   ID=MYSP-0270_00277_gene;locus_tag=MYSP-0270_00277
MYSP-0270-1_arrow   Prodigal:002006 CDS 288601  289803  .   -   0   ID=MYSP-0270_00277;Parent=MYSP-0270_00277_gene,MYSP-0270_00277_mRNA;inference=ab initio prediction:Prodigal:002006,similar to AA sequence:ISfinder:ISSod4;locus_tag=MYSP-0270_00277;product=IS256 family transposase ISSod4
MYSP-0270-1_arrow   prokka  gene    679096  680127  .   +   .   ID=MYSP-0270_00679_gene;locus_tag=MYSP-0270_00679
MYSP-0270-1_arrow   Prodigal:002006 CDS 679096  680127  .   +   0   ID=MYSP-0270_00679;Parent=MYSP-0270_00679_gene,MYSP-0270_00679_mRNA;inference=ab initio prediction:Prodigal:002006,similar to AA sequence:ISfinder:ISEc33;locus_tag=MYSP-0270_00679;product=IS630 family transposase ISEc33
MYSP-0270-1_arrow   prokka  gene    992591  993622  .   -   .   ID=MYSP-0270_00970_gene;locus_tag=MYSP-0270_00970
MYSP-0270-1_arrow   Prodigal:002006 CDS 992591  993622  .   -   0   ID=MYSP-0270_00970;Parent=MYSP-0270_00970_gene,MYSP-0270_00970_mRNA;inference=ab initio prediction:Prodigal:002006,similar to AA sequence:ISfinder:ISEc33;locus_tag=MYSP-0270_00970;product=IS630 family transposase ISEc33
MYSP-0270-1_arrow   prokka  gene    1080239 1081441 .   +   .   ID=MYSP-0270_01056_gene;locus_tag=MYSP-0270_01056
MYSP-0270-1_arrow   Prodigal:002006 CDS 1080239 1081441 .   +   0   ID=MYSP-0270_01056;Parent=MYSP-0270_01056_gene,MYSP-0270_01056_mRNA;inference=ab initio prediction:Prodigal:002006,similar to AA sequence:ISfinder:ISSod4;locus_tag=MYSP-0270_01056;product=IS256 family transposase ISSod4
MYSP-0270-1_arrow   prokka  gene    1811953 1812984 .   -   .   ID=MYSP-0270_01753_gene;locus_tag=MYSP-0270_01753
MYSP-0270-1_arrow   Prodigal:002006 CDS 1811953 1812984 .   -   0   ID=MYSP-0270_01753;Parent=MYSP-0270_01753_gene,MYSP-0270_01753_mRNA;inference=ab initio prediction:Prodigal:002006,similar to AA sequence:ISfinder:ISEc33;locus_tag=MYSP-0270_01753;product=IS630 family transposase ISEc33
MYSP-0270-1_arrow   prokka  gene    1980851 1981882 .   +   .   ID=MYSP-0270_01918_gene;locus_tag=MYSP-0270_01918
MYSP-0270-1_arrow   Prodigal:002006 CDS 1980851 1981882 .   +   0   ID=MYSP-0270_01918;Parent=MYSP-0270_01918_gene,MYSP-0270_01918_mRNA;inference=ab initio prediction:Prodigal:002006,similar to AA sequence:ISfinder:ISEc33;locus_tag=MYSP-0270_01918;product=IS630 family transposase ISEc33
MYSP-0270-1_arrow   prokka  gene    2049751 2050953 .   -   .   ID=MYSP-0270_01983_gene;locus_tag=MYSP-0270_01983
MYSP-0270-1_arrow   Prodigal:002006 CDS 2049751 2050953 .   -   0   ID=MYSP-0270_01983;Parent=MYSP-0270_01983_gene,MYSP-0270_01983_mRNA;inference=ab initio prediction:Prodigal:002006,similar to AA sequence:ISfinder:ISSod4;locus_tag=MYSP-0270_01983;product=IS256 family transposase ISSod4
MYSP-0270-1_arrow   prokka  gene    2195257 2195652 .   -   .   ID=MYSP-0270_02121_gene;locus_tag=MYSP-0270_02121
MYSP-0270-1_arrow   Prodigal:002006 CDS 2195257 2195652 .   -   0   ID=MYSP-0270_02121;Parent=MYSP-0270_02121_gene,MYSP-0270_02121_mRNA;inference=ab initio prediction:Prodigal:002006,similar to AA sequence:ISfinder:ISVisp4;locus_tag=MYSP-0270_02121;product=IS3 family transposase ISVisp4
MYSP-0270-1_arrow   prokka  gene    2406691 2407893 .   -   .   ID=MYSP-0270_02325_gene;locus_tag=MYSP-0270_02325
MYSP-0270-1_arrow   Prodigal:002006 CDS 2406691 2407893 .   -   0   ID=MYSP-0270_02325;Parent=MYSP-0270_02325_gene,MYSP-0270_02325_mRNA;inference=ab initio prediction:Prodigal:002006,similar to AA sequence:ISfinder:ISSod4;locus_tag=MYSP-0270_02325;product=IS256 family transposase ISSod4
MYSP-0270-1_arrow   prokka  gene    2479054 2480127 .   -   .   ID=MYSP-0270_02400_gene;Name=xerC_3;gene=xerC_3;locus_tag=MYSP-0270_02400
MYSP-0270-1_arrow   Prodigal:002006 CDS 2479054 2480127 .   -   0   ID=MYSP-0270_02400;Parent=MYSP-0270_02400_gene,MYSP-0270_02400_mRNA;Name=xerC_3;gene=xerC_3;inference=ab initio prediction:Prodigal:002006,protein motif:HAMAP:MF_01808;locus_tag=MYSP-0270_02400;product=Tyrosine recombinase XerC
MYSP-0270-1_arrow   prokka  gene    2480156 2483230 .   -   .   ID=MYSP-0270_02401_gene;Name=dnaG_3;gene=dnaG_3;locus_tag=MYSP-0270_02401
MYSP-0270-1_arrow   Prodigal:002006 CDS 2480156 2483230 .   -   0   ID=MYSP-0270_02401;Parent=MYSP-0270_02401_gene,MYSP-0270_02401_mRNA;eC_number=2.7.7.-;Name=dnaG_3;gene=dnaG_3;inference=ab initio prediction:Prodigal:002006,protein motif:HAMAP:MF_00974;locus_tag=MYSP-0270_02401;product=DNA primase
MYSP-0270-1_arrow   prokka  gene    2483331 2483729 .   +   .   ID=MYSP-0270_02402_gene;locus_tag=MYSP-0270_02402
MYSP-0270-1_arrow   Prodigal:002006 CDS 2483331 2483729 .   +   0   ID=MYSP-0270_02402;Parent=MYSP-0270_02402_gene,MYSP-0270_02402_mRNA;inference=ab initio prediction:Prodigal:002006;locus_tag=MYSP-0270_02402;product=hypothetical protein
MYSP-0270-1_arrow   prokka  gene    2483801 2484034 .   +   .   ID=MYSP-0270_02403_gene;Name=symE_4;gene=symE_4;locus_tag=MYSP-0270_02403
MYSP-0270-1_arrow   Prodigal:002006 CDS 2483801 2484034 .   +   0   ID=MYSP-0270_02403;Parent=MYSP-0270_02403_gene,MYSP-0270_02403_mRNA;eC_number=3.1.-.-;Name=symE_4;gene=symE_4;inference=ab initio prediction:Prodigal:002006,protein motif:HAMAP:MF_01193;locus_tag=MYSP-0270_02403;product=Endoribonuclease SymE
MYSP-0270-1_arrow   prokka  gene    2484095 2484472 .   -   .   ID=MYSP-0270_02404_gene;locus_tag=MYSP-0270_02404
MYSP-0270-1_arrow   Prodigal:002006 CDS 2484095 2484472 .   -   0   ID=MYSP-0270_02404;Parent=MYSP-0270_02404_gene,MYSP-0270_02404_mRNA;inference=ab initio prediction:Prodigal:002006;locus_tag=MYSP-0270_02404;product=hypothetical protein
MYSP-0270-1_arrow   prokka  gene    2794245 2795276 .   -   .   ID=MYSP-0270_02698_gene;locus_tag=MYSP-0270_02698
MYSP-0270-1_arrow   Prodigal:002006 CDS 2794245 2795276 .   -   0   ID=MYSP-0270_02698;Parent=MYSP-0270_02698_gene,MYSP-0270_02698_mRNA;inference=ab initio prediction:Prodigal:002006,similar to AA sequence:ISfinder:ISEc33;locus_tag=MYSP-0270_02698;product=IS630 family transposase ISEc33

## and  present in the gene_data.csv also

MYSP-0270,MYSP-0270-1_arrow,6_0_246,MYSP-0270_00277,MSQPFDFDKALKALQDGQALTGKDGILTPLIKQLTEAALAAELDSHLAQDIAANRKNGSSKKTLKTPTGAFELATPRDRNGSFEPQLVKKHQTTLSDEIERKIIRMFALGMSYKDISQEIEDLYAFSVSSATISAVTDKVIPELKLWQQRPLEAVYPFVWLDAIHYKIREDGRYQSKAVYTVLALNLEGKKEILGLYLSESEGANFWLSVLTDLQNRGVNDILIACVDGLTGFPEAINSIYPDTEVQLCVIHQIRNSIKYVASKHHKAFMTDLKPVYRAVSKEAAEVALDELEEKWGQQYPVVIQSWRRKWENLSHYFRYPATIRKVIYTTNAIESVHRQFRKLTKTKGAFPNENSLLKLLYLGLMNAQEKWTMPIQSWNLTLSQLAIYFEGRLDKVITL,ATGTCCCAACCCTTCGATTTCGATAAAGCCCTGAAAGCACTTCAGGATGGTCAGGCGCTGACTGGCAAAGATGGCATCTTAACGCCGTTAATCAAACAGTTAACTGAGGCTGCGCTGGCTGCTGAGCTGGACTCTCATCTGGCTCAGGATATTGCTGCTAACCGGAAAAATGGTTCGTCCAAAAAAACCCTCAAAACGCCAACCGGTGCCTTTGAACTCGCCACGCCCCGCGATCGTAACGGCTCTTTTGAGCCTCAATTGGTCAAAAAGCATCAGACCACGCTTTCTGATGAGATTGAGCGCAAGATCATCCGCATGTTCGCGCTGGGCATGAGTTACAAGGATATCAGCCAGGAAATTGAAGACCTGTATGCTTTCAGTGTTTCCAGCGCCACGATCAGTGCCGTCACCGATAAAGTTATTCCTGAACTGAAACTGTGGCAGCAACGCCCTCTTGAAGCGGTTTATCCCTTTGTCTGGCTGGATGCCATTCATTATAAAATCCGCGAAGACGGGCGTTATCAGAGCAAAGCCGTGTACACCGTTCTAGCACTGAATCTCGAAGGCAAGAAAGAGATCCTGGGCCTGTATCTGTCTGAAAGCGAAGGGGCTAACTTCTGGCTGTCGGTGCTGACCGATCTACAAAACCGCGGCGTGAACGACATTCTGATTGCCTGTGTGGATGGTCTGACAGGGTTCCCGGAAGCGATAAACAGCATTTACCCGGATACCGAAGTCCAGCTCTGTGTTATCCATCAGATCCGAAACTCGATTAAATATGTCGCCTCAAAGCACCATAAGGCGTTCATGACCGACCTGAAGCCAGTTTATCGTGCAGTCTCGAAAGAGGCGGCAGAGGTGGCGCTGGATGAACTGGAGGAGAAATGGGGCCAGCAGTACCCGGTGGTTATTCAGTCATGGCGGAGAAAATGGGAAAATCTGTCCCATTACTTCCGGTATCCGGCGACGATCCGTAAGGTAATTTACACCACAAACGCCATTGAATCAGTGCACCGTCAGTTCAGAAAGCTGACGAAAACGAAAGGTGCATTCCCGAATGAAAACAGTCTGTTGAAGCTACTTTATCTGGGGTTAATGAATGCCCAGGAAAAATGGACAATGCCAATACAAAGCTGGAATTTGACATTGTCACAGCTGGCGATTTATTTTGAAGGCCGCCTTGATAAAGTGATTACGTTGTAA,,IS256 family transposase ISSod4
MYSP-0270,MYSP-0270-1_arrow,6_0_633,MYSP-0270_00679,MPIIAPIPRGERRLMQKAIHKTRDKNHARRLTAMLMLHRGERVSNVARTLCCARSSVGRWINWFTLSGVEGLKSLPAGRARRWPFEHICTLLRELVKHSPGDFGYQRSRWSTELLAIKINEITGCQLHAGTVRRWLPSAGLVWRRAAPTLRIRDPHKDEKMAVIRKALDECSAEHPVFYEDEVDIHLNPKIGADWQMRGQQKRVVTPGQNEKYYLAGALHSGTGKVSYAGGNSKSSALFISLLKRLKATYRRAKTITLIVDNYIIHKSRETQRWLKENPKFRVIYQPVYSPWVNHVERLWQALHDTITRNHQCRSMWQLLKKVRHFMETVSPFPGGKHGQAKV,ATGCCGATCATAGCACCTATTCCCCGTGGCGAAAGACGCCTGATGCAGAAAGCTATCCATAAAACGCGTGATAAAAATCATGCCCGCAGGCTCACCGCTATGCTGATGCTTCATCGGGGTGAGCGGGTCAGCAATGTCGCCAGAACGCTCTGCTGTGCCCGTTCATCCGTCGGACGCTGGATTAACTGGTTTACGCTGTCGGGTGTTGAAGGGCTGAAGTCATTACCCGCCGGGCGTGCCCGCCGTTGGCCGTTTGAGCATATCTGCACGCTGCTACGCGAGCTGGTAAAACATTCTCCCGGCGATTTTGGCTATCAGCGTTCACGCTGGAGTACAGAACTTCTGGCGATAAAAATCAATGAGATAACGGGATGCCAGTTGCATGCCGGAACCGTGCGCCGCTGGTTGCCGTCTGCGGGGCTTGTCTGGCGAAGGGCCGCGCCAACCCTGCGTATCCGCGACCCGCATAAAGATGAAAAAATGGCGGTAATCCGCAAAGCGCTGGACGAATGCAGCGCAGAGCATCCGGTATTTTATGAAGATGAAGTGGATATCCACCTCAATCCAAAAATCGGTGCGGACTGGCAGATGCGCGGGCAGCAAAAACGCGTGGTGACACCGGGGCAGAATGAAAAATACTATCTGGCCGGGGCGTTACACAGCGGAACGGGTAAAGTCAGCTATGCGGGCGGTAACAGCAAAAGTTCGGCGCTGTTCATCAGCCTGCTGAAGCGGCTTAAAGCGACGTACCGGCGGGCGAAAACCATCACGCTGATCGTGGACAACTACATTATCCACAAAAGCCGTGAAACACAGCGCTGGCTGAAGGAGAACCCGAAGTTCAGGGTCATTTACCAGCCGGTTTACTCGCCATGGGTGAATCACGTTGAACGCCTGTGGCAGGCGCTTCACGACACAATCACGCGCAATCATCAGTGCCGCTCAATGTGGCAATTGTTGAAAAAAGTTCGCCATTTTATGGAAACCGTCAGCCCGTTTCCCGGAGGAAAGCATGGTCAGGCAAAAGTGTAG,,IS630 family transposase ISEc33
MYSP-0270,MYSP-0270-1_arrow,6_0_909,MYSP-0270_00970,MPIIAPIPRGERRLMQKAIHKTRDKNHARRLTAMLMLHRGERVSNVARTLCCARSSVGRWINWFTLSGVEGLKSLPAGRARRWPFEHICTLLRELVKHSPGDFGYQRSRWSTELLAIKINEITGCQLHAGTVRRWLPSAGLVWRRAAPTLRIRDPHKDEKMAVIRKALDECSAEHPVFYEDEVDIHLNPKIGADWQMRGQQKRVVTPGQNEKYYLAGALHSGTGKVSYAGGNSKSSALFISLLKRLKATYRRAKTITLIVDNYIIHKSRETQRWLKENPKFRVIYQPVYSPWVNHVERLWQALHDTITRNHQCRSMWQLLKKVRHFMETVSPFPGGKHGQAKV,ATGCCGATCATAGCACCTATTCCCCGTGGCGAAAGACGCCTGATGCAGAAAGCTATCCATAAAACGCGTGATAAAAATCATGCCCGCAGGCTCACCGCTATGCTGATGCTTCATCGGGGTGAGCGGGTCAGCAATGTCGCCAGAACGCTCTGCTGTGCCCGTTCATCCGTCGGACGCTGGATTAACTGGTTTACGCTGTCGGGTGTTGAAGGGCTGAAGTCATTACCCGCCGGGCGTGCCCGCCGTTGGCCGTTTGAGCATATCTGCACGCTGCTACGCGAGCTGGTAAAACATTCTCCCGGCGATTTTGGCTATCAGCGTTCACGCTGGAGTACAGAACTTCTGGCGATAAAAATCAATGAGATAACGGGATGCCAGTTGCATGCCGGAACCGTGCGCCGCTGGTTGCCGTCTGCGGGGCTTGTCTGGCGAAGGGCCGCGCCAACCCTGCGTATCCGCGACCCGCATAAAGATGAAAAAATGGCGGTAATCCGCAAAGCGCTGGACGAATGCAGCGCAGAGCATCCGGTATTTTATGAAGATGAAGTGGATATCCACCTCAATCCAAAAATCGGTGCGGACTGGCAGATGCGCGGGCAGCAAAAACGCGTGGTGACACCGGGGCAGAATGAAAAATACTATCTGGCCGGGGCGTTACACAGCGGAACGGGTAAAGTCAGCTATGCGGGCGGTAACAGCAAAAGTTCGGCGCTGTTCATCAGCCTGCTGAAGCGGCTTAAAGCGACGTACCGGCGGGCGAAAACCATCACGCTGATCGTGGACAACTACATTATCCACAAAAGCCGTGAAACACAGCGCTGGCTGAAGGAGAACCCGAAGTTCAGGGTCATTTACCAGCCGGTTTACTCGCCATGGGTGAATCACGTTGAACGCCTGTGGCAGGCGCTTCACGACACAATCACGCGCAATCATCAGTGCCGCTCAATGTGGCAATTGTTGAAAAAAGTTCGCCATTTTATGGAAACCGTCAGCCCGTTTCCCGGAGGAAAGCATGGTCAGGCAAAAGTGTAG,,IS630 family transposase ISEc33
MYSP-0270,MYSP-0270-1_arrow,6_0_981,MYSP-0270_01056,MSQPFDFDKALKALQDGQALTGKDGILTPLIKQLTEAALAAELDSHLAQDIAANRKNGSSKKTLKTPTGAFELATPRDRNGSFEPQLVKKHQTTLSDEIERKIIRMFALGMSYKDISQEIEDLYAFSVSSATISAVTDKVIPELKLWQQRPLEAVYPFVWLDAIHYKIREDGRYQSKAVYTVLALNLEGKKEILGLYLSESEGANFWLSVLTDLQNRGVNDILIACVDGLTGFPEAINSIYPDTEVQLCVIHQIRNSIKYVASKHHKAFMTDLKPVYRAVSKEAAEVALDELEEKWGQQYPVVIQSWRRKWENLSHYFRYPATIRKVIYTTNAIESVHRQFRKLTKTKGAFPNENSLLKLLYLGLMNAQEKWTMPIQSWNLTLSQLAIYFEDRLDKVITL,ATGTCCCAACCCTTCGATTTCGATAAAGCCCTGAAAGCACTTCAGGATGGTCAGGCGCTGACTGGCAAAGATGGCATCTTAACGCCGTTAATCAAACAGTTAACTGAGGCTGCGCTGGCTGCTGAGCTGGACTCTCATCTGGCTCAGGATATTGCTGCTAACCGGAAAAATGGTTCGTCCAAAAAAACGCTCAAAACGCCAACCGGTGCCTTTGAACTCGCCACGCCCCGCGATCGTAACGGCTCTTTTGAGCCTCAATTGGTCAAAAAGCATCAGACCACGCTTTCTGATGAGATTGAGCGCAAGATCATCCGCATGTTCGCGCTGGGCATGAGTTACAAGGATATCAGCCAGGAAATTGAAGACCTGTATGCTTTCAGTGTTTCCAGCGCCACGATCAGTGCCGTCACCGATAAAGTTATTCCTGAACTGAAACTGTGGCAGCAACGCCCTCTTGAAGCGGTTTATCCCTTTGTCTGGCTGGATGCCATTCATTATAAAATCCGCGAAGACGGGCGTTATCAGAGCAAAGCCGTGTACACCGTTCTAGCACTGAATCTCGAAGGCAAGAAAGAGATCCTGGGCCTGTATCTGTCTGAAAGCGAAGGGGCTAACTTCTGGCTGTCGGTGCTGACCGATCTACAAAACCGCGGCGTGAACGACATTCTGATTGCCTGTGTGGATGGTCTGACAGGGTTCCCGGAAGCGATAAACAGCATTTACCCGGATACCGAAGTCCAGCTCTGTGTTATCCATCAGATCCGAAACTCGATTAAATATGTCGCCTCAAAGCACCATAAGGCGTTCATGACCGACCTGAAGCCAGTTTATCGTGCAGTCTCGAAAGAGGCGGCAGAGGTGGCGCTGGATGAACTGGAGGAGAAATGGGGCCAGCAGTACCCGGTGGTTATTCAGTCATGGCGGAGAAAATGGGAAAATCTGTCCCATTACTTCCGGTATCCGGCGACGATCCGTAAGGTAATTTACACCACAAACGCCATTGAATCAGTGCACCGTCAGTTCAGAAAGCTGACGAAAACGAAAGGTGCATTCCCGAATGAAAACAGTCTGTTGAAGCTACTTTATCTGGGGTTAATGAATGCCCAGGAAAAATGGACAATGCCAATACAAAGCTGGAATTTGACATTGTCACAGCTGGCGATTTATTTTGAAGACCGCCTTGATAAAGTGATTACGTTGTAA,,IS256 family transposase ISSod4
MYSP-0270,MYSP-0270-1_arrow,6_0_1648,MYSP-0270_01753,MPIIAPIPRGERRLMQKAIHKTRDKNHARRLTAMLMLHRGERVSNVARTLCCARSSVGRWINWFTLSGVEGLKSLPAGRARRWPFEHICTLLRELVKHSPGDFGYQRSRWSTELLAIKINEITGCQLHAGTVRRWLPSAGLVWRRAAPTLRIRDPHKDEKMAVIRKALDECSAEHPVFYEDEVDIHLNPKIGADWQMRGQQKRVVTPGQNEKYYLAGALHSGTGKVSYAGGNSKSSALFISLLKRLKATYRRAKTITLIVDNYIIHKSRETQRWLKENPKFRVIYQPVYSPWVNHVERLWQALHDTITRNHQCRSMWQLLKKVRHFMETVSPFPGGKHGQAKV,ATGCCGATCATAGCACCTATTCCCCGTGGCGAAAGACGCCTGATGCAGAAAGCTATCCATAAAACGCGTGATAAAAATCATGCCCGCAGGCTCACCGCTATGCTGATGCTTCATCGGGGTGAGCGGGTCAGCAATGTCGCCAGAACGCTCTGCTGTGCCCGTTCATCCGTCGGACGCTGGATTAACTGGTTTACGCTGTCGGGTGTTGAAGGGCTGAAGTCATTACCCGCCGGGCGTGCCCGCCGTTGGCCGTTTGAGCATATCTGCACGCTGCTACGCGAGCTGGTAAAACATTCTCCCGGCGATTTTGGCTATCAGCGTTCACGCTGGAGTACAGAACTTCTGGCGATAAAAATCAATGAGATAACGGGATGCCAGTTGCATGCCGGAACCGTGCGCCGCTGGTTGCCGTCTGCGGGGCTTGTCTGGCGAAGGGCCGCGCCAACCCTGCGTATCCGCGACCCGCATAAAGATGAAAAAATGGCGGTAATCCGCAAAGCGCTGGACGAATGCAGCGCAGAGCATCCGGTATTTTATGAAGATGAAGTGGATATCCACCTCAATCCAAAAATCGGTGCGGACTGGCAGATGCGCGGGCAGCAAAAACGCGTGGTGACACCGGGGCAGAATGAAAAATACTATCTGGCCGGGGCGTTACACAGCGGAACGGGTAAAGTCAGCTATGCGGGCGGTAACAGCAAAAGTTCGGCGCTGTTCATCAGCCTGCTGAAGCGGCTTAAAGCGACGTACCGGCGGGCGAAAACCATCACGCTGATCGTGGACAACTACATTATCCACAAAAGCCGTGAAACACAGCGCTGGCTGAAGGAGAACCCGAAGTTCAGGGTCATTTACCAGCCGGTTTACTCGCCATGGGTGAATCACGTTGAACGCCTGTGGCAGGCGCTTCACGACACAATCACGCGCAATCATCAGTGCCGCTCAATGTGGCAATTGTTGAAAAAAGTTCGCCATTTTATGGAAACCGTCAGCCCGTTTCCCGGAGGAAAGCATGGTCAGGCAAAAGTGTAG,,IS630 family transposase ISEc33
MYSP-0270,MYSP-0270-1_arrow,6_0_1806,MYSP-0270_01918,MPIIAPIPRGERRLMQKAIHKTRDKNHARRLTAMLMLHRGERVSNVARTLCCARSSVGRWINWFTLSGVEGLKSLPAGRARRWPFEHICTLLRELVKHSPGDFGYQRSRWSTELLAIKINEITGCQLHAGTVRRWLPSAGLVWRRAAPTLRIRDPHKDEKMAVIRKALDECSAEHPVFYEDEVDIHLNPKIGADWQMRGQQKRVVTPGQNEKYYLAGALHSGTGKVSYAGGNSKSSALFISLLKRLKATYRRAKTITLIVDNYIIHKSRETQRWLKENPKFRVIYQPVYSPWVNHVERLWQALHDTITRNHQCRSMWQLLKKVRHFMETVSPFPGGKHGQAKV,ATGCCGATCATAGCACCTATTCCCCGTGGCGAAAGACGCCTGATGCAGAAAGCTATCCATAAAACGCGTGATAAAAATCATGCCCGCAGGCTCACCGCTATGCTGATGCTTCATCGGGGTGAGCGGGTCAGCAATGTCGCCAGAACGCTCTGCTGTGCCCGTTCATCCGTCGGACGCTGGATTAACTGGTTTACGCTGTCGGGTGTTGAAGGGCTGAAGTCATTACCCGCCGGGCGTGCCCGCCGTTGGCCGTTTGAGCATATCTGCACGCTGCTACGCGAGCTGGTAAAACATTCTCCCGGCGATTTTGGCTATCAGCGTTCACGCTGGAGTACAGAACTTCTGGCGATAAAAATCAATGAGATAACGGGATGCCAGTTGCATGCCGGAACCGTGCGCCGCTGGTTGCCGTCTGCGGGGCTTGTCTGGCGAAGGGCCGCGCCAACCCTGCGTATCCGCGACCCGCATAAAGATGAAAAAATGGCGGTAATCCGCAAAGCGCTGGACGAATGCAGCGCAGAGCATCCGGTATTTTATGAAGATGAAGTGGATATCCACCTCAATCCAAAAATCGGTGCGGACTGGCAGATGCGCGGGCAGCAAAAACGCGTGGTGACACCGGGGCAGAATGAAAAATACTATCTGGCCGGGGCGTTACACAGCGGAACGGGTAAAGTCAGCTATGCGGGCGGTAACAGCAAAAGTTCGGCGCTGTTCATCAGCCTGCTGAAGCGGCTTAAAGCGACGTACCGGCGGGCGAAAACCATCACGCTGATCGTGGACAACTACATTATCCACAAAAGCCGTGAAACACAGCGCTGGCTGAAGGAGAACCCGAAGTTCAGGGTCATTTACCAGCCGGTTTACTCGCCATGGGTGAATCACGTTGAACGCCTGTGGCAGGCGCTTCACGACACAATCACGCGCAATCATCAGTGCCGCTCAATGTGGCAATTGTTGAAAAAAGTTCGCCATTTTATGGAAACCGTCAGCCCGTTTCCCGGAGGAAAGCATGGTCAGGCAAAAGTGTAG,,IS630 family transposase ISEc33
MYSP-0270,MYSP-0270-1_arrow,6_0_1869,MYSP-0270_01983,MSQPFDFDKALKALQDGQALTGKDGILTPLIKQLTEAALAAELDSHLAQDIAANRKNGSSKKTLKTPTGAFELATPRDRNGSFEPQLVKKHQTTLSDEIERKIIRMFALGMSYKDISQEIEDLYAFSVSSATISAVTDKVIPELKLWQQRPLEAVYPFVWLDAIHYKIREDGRYQSKAVYTVLALNLEGKKEILGLYLSESEGANFWLSVLTDLQNRGVNDILIACVDGLTGFPEAINSIYPDTEVQLCVIHQIRNSIKYVASKHHKAFMTDLKPVYRAVSKEAAEVALDELEEKWGQQYPVVIQSWRRKWENLSHYFRYPATIRKVIYTTNAIESVHRQFRKLTKTKGAFPNENSLLKLLYLGLMNAQEKWTMPIQSWNLTLSQLAIYFEGRLDKVITL,ATGTCCCAACCCTTCGATTTCGATAAAGCCCTGAAAGCACTTCAGGATGGTCAGGCGCTGACTGGCAAAGATGGCATCTTAACGCCGTTAATCAAACAGTTAACTGAGGCTGCGCTGGCTGCTGAGCTGGACTCTCATCTGGCTCAGGATATTGCTGCTAACCGGAAAAATGGTTCGTCCAAAAAAACCCTCAAAACGCCAACCGGTGCCTTTGAACTCGCCACGCCCCGCGATCGTAACGGCTCTTTTGAGCCTCAATTGGTCAAAAAGCATCAGACCACGCTTTCTGATGAGATTGAGCGCAAGATCATCCGCATGTTCGCGCTGGGCATGAGTTACAAGGATATCAGCCAGGAAATTGAAGACCTGTATGCTTTCAGTGTTTCCAGCGCCACGATCAGTGCCGTCACCGATAAAGTTATTCCTGAACTGAAACTGTGGCAGCAACGCCCTCTTGAAGCGGTTTATCCCTTTGTCTGGCTGGATGCCATTCATTATAAAATCCGCGAAGACGGGCGTTATCAGAGCAAAGCCGTGTACACCGTTCTAGCACTGAATCTCGAAGGCAAGAAAGAGATCCTGGGCCTGTATCTGTCTGAAAGCGAAGGGGCTAACTTCTGGCTGTCGGTGCTGACCGATCTACAAAACCGCGGCGTGAACGACATTCTGATTGCCTGTGTGGATGGTCTGACAGGGTTCCCGGAAGCGATAAACAGCATTTACCCGGATACCGAAGTCCAGCTCTGTGTTATCCATCAGATCCGAAACTCGATTAAATATGTCGCCTCAAAGCACCATAAGGCGTTCATGACCGACCTGAAGCCAGTTTATCGTGCAGTCTCGAAAGAGGCGGCAGAGGTGGCGCTGGATGAACTGGAGGAGAAATGGGGCCAGCAGTACCCGGTGGTTATTCAGTCATGGCGGAGAAAATGGGAAAATCTGTCCCATTACTTCCGGTATCCGGCGACGATCCGTAAGGTAATTTACACCACAAACGCCATTGAATCAGTGCACCGTCAGTTCAGAAAGCTGACGAAAACGAAAGGTGCATTCCCGAATGAAAACAGTCTGTTGAAGCTACTTTATCTGGGGTTAATGAATGCCCAGGAAAAATGGACAATGCCAATACAAAGCTGGAATTTGACATTGTCACAGCTGGCGATTTATTTTGAAGGCCGCCTTGATAAAGTGATTACGTTGTAA,,IS256 family transposase ISSod4
MYSP-0270,MYSP-0270-1_arrow,6_0_2007,MYSP-0270_02121,MKQYVKRTQRDYSLSFKLAVVEQVEKGEMTYRQAQERYGIQGCSTVLNWLRKYGQLDWHSSAQRSTRGGLMTKSLPLTPEQRIKELEQQLAESEVKAQFFEAVVKVMNTEFGATLTKKQLASLSRRQKHPD,ATGAAACAGTATGTTAAACGTACACAACGGGACTACTCTCTGTCCTTTAAACTGGCCGTCGTTGAGCAGGTTGAAAAAGGTGAGATGACATATCGTCAGGCTCAGGAGCGCTACGGTATTCAGGGGTGCTCCACCGTTCTGAACTGGCTGCGTAAGTATGGCCAGCTGGACTGGCACTCTTCAGCGCAGCGCAGCACCCGTGGAGGACTCATGACAAAATCCCTTCCCCTTACCCCCGAACAGCGAATCAAAGAGCTTGAGCAGCAGCTGGCTGAGTCCGAAGTTAAGGCACAGTTCTTCGAGGCCGTCGTGAAGGTCATGAACACTGAGTTCGGCGCCACGCTGACAAAAAAGCAGTTAGCTTCCTTATCGCGCAGACAGAAACACCCGGACTGA,,IS3 family transposase ISVisp4
MYSP-0270,MYSP-0270-1_arrow,6_0_2205,MYSP-0270_02325,MSQPFDFDKALKALQDGQALTGKDGILTPLIKQLTEAALAAELDSHLAQDIAANRKNGSSKKTLKTPTGAFELATPRDRNGSFEPQLVKKHQTTLSDEIERKIIRMFALGMSYKDISQEIEDLYAFSVSSATISAVTDKVIPELKLWQQRPLEAVYPFVWLDAIHYKIREDGRYQSKAVYTVLALNLEGKKEILGLYLSESEGANFWLSVLTDLQNRGVNDILIACVDGLTGFPEAINSIYPDTEVQLCVIHQIRNSIKYVASKHHKAFMTDLKPVYRAVSKEAAEVALDELEEKWGQQYPMVIQSWRRKWENLSHYFRYPATIRKVIYTTNAIESVHRQFRKLTKTKGAFPNENSLLKLLYLGLMNAQEKWTMPIQSWNLTLSQLAIYFEGRLDKVITL,ATGTCCCAACCCTTCGATTTCGATAAAGCCCTGAAAGCACTTCAGGATGGTCAGGCGCTGACTGGCAAAGATGGCATCTTAACGCCGTTAATCAAACAGTTAACTGAGGCTGCGCTGGCTGCTGAGCTGGACTCTCATCTGGCTCAGGATATTGCTGCTAACCGGAAAAATGGTTCGTCCAAAAAAACGCTCAAAACGCCAACCGGTGCCTTTGAACTCGCCACGCCCCGCGATCGTAACGGCTCTTTTGAGCCTCAATTGGTCAAAAAGCATCAGACCACGCTTTCTGATGAGATTGAGCGCAAGATCATCCGCATGTTCGCGCTGGGCATGAGTTACAAGGATATCAGCCAGGAAATTGAAGACCTGTATGCTTTCAGTGTTTCCAGCGCCACGATCAGTGCCGTCACCGATAAAGTTATTCCTGAACTGAAACTGTGGCAGCAACGCCCTCTTGAAGCGGTTTATCCCTTTGTCTGGCTGGATGCCATTCATTATAAAATCCGCGAAGACGGGCGTTATCAGAGCAAAGCCGTGTACACCGTTCTAGCACTGAATCTCGAAGGCAAGAAAGAGATCCTGGGCCTGTATCTGTCTGAAAGCGAAGGGGCTAACTTCTGGCTGTCGGTGCTGACCGATCTACAAAACCGCGGCGTGAACGACATTCTGATTGCCTGTGTGGATGGTCTGACAGGGTTCCCGGAAGCGATAAACAGCATTTACCCGGATACCGAAGTCCAGCTCTGTGTTATCCATCAGATCCGAAACTCGATTAAATATGTCGCCTCAAAGCACCATAAGGCGTTCATGACCGACCTGAAGCCAGTTTATCGTGCAGTCTCGAAAGAGGCGGCAGAGGTGGCGCTGGATGAACTGGAGGAGAAATGGGGCCAGCAGTACCCGATGGTTATTCAGTCATGGCGGAGAAAATGGGAAAATCTGTCCCATTACTTCCGGTATCCGGCGACGATCCGTAAGGTAATTTACACCACAAACGCCATTGAATCAGTGCACCGTCAGTTCAGAAAGCTGACGAAAACGAAAGGTGCATTCCCGAATGAAAACAGTCTGTTGAAGCTACTTTATCTGGGGTTAATGAATGCCCAGGAAAAATGGACAATGCCAATACAAAGCTGGAATTTGACATTGTCACAGCTGGCGATTTATTTTGAAGGCCGCCTTGATAAAGTGATTACGTTGTAA,,IS256 family transposase ISSod4
MYSP-0270,MYSP-0270-1_arrow,6_0_2280,MYSP-0270_02400,MPYRRPPSNRKPSPNRLLTVDDIYRQPVGPATHPKSLYALLLRFVKWRRERNWSETTLKTQTHHSYRFICWAAERGIHYAAEVTRPVLESWQRHLYQYRKANGEALTSRTQRTALQPLQVWFSWMAKQGLILANPAADLELPRLEKRLPRTILSVEQVEDIVNLCDLTTLQGIRDRALLELLWSTGIRRGEVAGLEIYSVDFSRQILTIVQGKGKEDRVIPAGERALWWLKRYIVHVRPEILAVPDCKALFLAMDGVAGLTASGITNAVVPYLRESGIDKGSCHLFRHAMATQMLENGADLRWIQAMLGHRSVESTQIYTQVSIRALQAVHASTHPAEQREKPEPDAAAEPPDGPLS,ATGCCTTACCGCAGACCGCCGTCAAACCGCAAACCTTCCCCGAACCGTCTGCTTACCGTTGACGACATCTACCGCCAGCCGGTCGGCCCGGCCACCCATCCGAAAAGCCTGTACGCGCTGCTGCTGCGGTTCGTGAAGTGGCGGCGGGAGCGCAACTGGTCGGAGACCACACTGAAGACCCAGACACATCACAGCTACCGCTTTATCTGCTGGGCGGCTGAACGGGGAATACACTATGCGGCGGAGGTGACAAGGCCGGTGCTGGAGAGCTGGCAGCGGCATCTGTACCAGTACCGCAAGGCAAACGGTGAAGCACTGACCAGCCGGACGCAGCGCACGGCGTTACAGCCGCTTCAGGTGTGGTTCTCGTGGATGGCGAAACAGGGGCTGATACTGGCGAATCCGGCGGCAGACCTGGAGCTGCCGAGGCTGGAGAAGCGTCTGCCGCGCACGATACTGAGCGTGGAGCAGGTGGAGGACATCGTGAACCTGTGCGACCTCACCACGCTTCAGGGTATCCGTGACCGGGCGCTGCTGGAACTGCTGTGGTCAACGGGCATCCGTCGCGGCGAGGTGGCCGGGCTTGAGATATACAGCGTGGACTTCTCCCGGCAGATACTGACCATCGTGCAGGGCAAGGGAAAGGAGGACCGGGTGATACCGGCAGGTGAGCGGGCGCTGTGGTGGCTGAAGCGCTACATCGTTCACGTCAGACCAGAAATCCTCGCGGTGCCTGACTGTAAGGCGCTGTTCCTGGCGATGGACGGCGTGGCAGGGCTGACGGCCAGCGGCATTACGAACGCGGTGGTGCCGTACCTGAGAGAGTCGGGCATCGACAAAGGGAGCTGCCACCTGTTCCGGCATGCCATGGCGACGCAGATGCTGGAGAACGGCGCAGACCTGCGGTGGATACAGGCGATGCTCGGTCACCGGAGCGTGGAGAGCACGCAGATATATACGCAGGTGAGTATCCGGGCGTTGCAGGCGGTCCATGCCAGTACGCATCCGGCAGAGCAGCGGGAGAAGCCGGAGCCGGACGCCGCAGCGGAGCCGCCGGACGGGCCGCTGAGTTAG,xerC_3,Tyrosine recombinase XerC
MYSP-0270,MYSP-0270-1_arrow,6_0_2281,MYSP-0270_02401,MNNGRVTPAELEQLKRDVSLAAVAKSQNRVLTKQGKDFAVLCPFHAEKTPSCVISPAKNLYHCFGCNAGGSVLDWLQHTENLTYAQTLVRLRELAGCSTLRVVSQNQPSSSAAAVPASSSPPARQTLTDLDDDGQALLHQVADWYHQNLLNSPETLTWLEKRGLTHPELVSHFRLGFAGPHGVAGALPSPSSKEGKALRSRLTALGVIRESNRQDHFRGCLTVPVTGWTESYDPASRGRVLQLYGRRTMADHQVKKGSAKHLYLPSPLCGIWNEAALAAASEVILCEALIDAMTFWCAGFRNVIAAFGVHGFTPGHLAALQYHGVKRVLIAFDRDEAGDRGADAVAGQLAGAGIDAWRVRFPAGLDANAYALKSGNAESALTLALEQAVRLSGPVQAVSGSDAGAASQTGAVRSESSSSSAAFPASQSAHQPAETLACEVTLSGELLLRSGPRIWRVRGWQKNQLPEVMKVNVRVLDESSGAFHTDQLDMYHAKQRQAYVSTAANELACDSAVIKREAGRVLLALEGKQDERQRAAEQESAASAVALSTDEEAAALALLKSPDLAERIVADLAACGVVGESSNLLTGYLAATSRKLDKPLAVLIQSSSAAGKSSLMDAVLGLIPEEERVQYSAMTGQSLYYLGETSLQHKILAIAEEEGVRQAAYALKLLQSDGELKIASTGKDEQSGELVTREYKVQGPVMLMLTTTASDVDEELLNRCLVLTVNESREQTQAIHAMQRRAQTLEGLLAQSEKGYLTRLHQNAQRLLRPLKVVNPYAERLTFLSDKTRTRRDHMKYLTLIQAVALLHQHQREVKRAEHRGQVLEYIEVQPSDIALANKLAHEVLGRTLDEMPPQTRKLLLLLKEMVGGLAESQNCQPSEVRFSRRDIRERLHWSDSQLKHHCLRLAEMEYLLVHGGSRGHLLQYQLLWDGGDGEEAHLCGLLNVDENASGDEGGNRKFGSEDSRSALSSGQVRGKFGQEKVASGQAAEGLQAGVVRVDENAVIREKKKTVLPPSPSLSQPSSS,ATGAACAACGGAAGAGTAACCCCGGCAGAGCTGGAACAGCTGAAGCGTGATGTGTCTCTGGCTGCGGTGGCGAAGTCGCAGAATCGCGTGCTGACGAAGCAGGGAAAAGACTTCGCTGTTCTCTGCCCGTTCCACGCTGAAAAGACGCCTTCCTGCGTTATCTCTCCGGCTAAAAACCTCTATCACTGCTTCGGCTGCAACGCGGGCGGGTCGGTGCTGGACTGGCTGCAACACACTGAAAACCTGACTTACGCGCAGACGCTGGTTCGCCTTCGTGAGCTGGCCGGATGTTCAACTTTGCGAGTTGTCTCGCAGAATCAGCCTTCCTCTTCAGCCGCTGCCGTTCCCGCCTCTTCTTCGCCGCCTGCCCGTCAGACGCTCACCGATCTGGACGATGACGGTCAGGCGCTGCTGCATCAGGTCGCGGACTGGTATCACCAGAACCTGCTGAACTCACCGGAAACCCTGACCTGGCTGGAAAAACGCGGCCTGACGCATCCTGAACTGGTGAGTCACTTCCGGCTGGGGTTCGCCGGGCCGCACGGTGTGGCGGGTGCGCTGCCGTCGCCGTCCAGCAAAGAGGGTAAAGCGCTGCGTTCGCGGCTGACTGCCCTCGGCGTGATACGCGAAAGCAACCGGCAGGATCACTTCCGGGGCTGCCTGACGGTGCCGGTTACGGGCTGGACTGAGAGTTACGATCCGGCGTCGCGTGGTCGGGTGCTCCAGCTGTACGGGCGACGGACGATGGCGGATCATCAGGTTAAAAAAGGCTCGGCAAAACACCTCTATCTGCCGTCGCCGCTGTGCGGGATCTGGAATGAAGCGGCGCTGGCCGCCGCCTCTGAAGTCATCCTGTGCGAAGCGCTGATCGATGCCATGACCTTCTGGTGCGCCGGGTTCCGTAACGTGATCGCGGCGTTCGGGGTACACGGCTTTACGCCGGGCCATCTGGCGGCGCTGCAGTATCATGGCGTAAAGCGGGTGCTGATCGCCTTCGATCGGGACGAGGCCGGGGATCGGGGTGCGGACGCGGTGGCCGGTCAGCTTGCCGGAGCCGGGATCGATGCCTGGCGGGTGCGGTTCCCGGCGGGCCTGGATGCAAACGCCTATGCGCTGAAAAGCGGCAACGCTGAATCGGCGCTGACGCTGGCCCTTGAGCAGGCGGTGCGGCTGTCCGGGCCGGTTCAGGCCGTGTCCGGCAGCGACGCCGGAGCCGCGTCTCAAACCGGTGCTGTCCGCAGTGAATCATCTTCCTCTTCAGCCGCCTTCCCGGCCTCACAGTCTGCGCATCAGCCCGCTGAAACTCTCGCCTGTGAGGTGACGCTCTCCGGTGAGCTGCTGCTGCGTTCCGGGCCGCGCATCTGGCGGGTGCGGGGCTGGCAGAAGAATCAGCTGCCTGAAGTGATGAAGGTCAACGTGCGGGTGCTGGATGAGTCAAGCGGTGCGTTCCACACCGACCAGCTGGACATGTACCACGCGAAGCAGCGGCAGGCTTACGTGAGCACGGCGGCAAACGAGCTGGCGTGTGACAGCGCAGTGATAAAGCGCGAGGCGGGCCGGGTGCTGCTGGCTCTCGAAGGTAAGCAGGACGAGCGGCAGCGGGCTGCAGAGCAGGAAAGCGCCGCCTCAGCGGTGGCGCTGAGCACGGACGAGGAAGCGGCGGCGCTGGCGCTGCTGAAATCCCCGGACCTGGCAGAGCGCATCGTGGCAGACCTTGCGGCGTGCGGTGTAGTCGGCGAGTCGTCAAACCTGCTGACCGGGTATCTGGCGGCGACGTCGCGCAAGCTGGATAAGCCGTTAGCGGTACTGATACAGAGCAGCAGCGCGGCGGGGAAGTCATCGCTGATGGACGCGGTGCTGGGTCTGATACCTGAGGAGGAGCGGGTGCAGTACAGCGCGATGACCGGGCAGAGCCTGTACTACCTGGGGGAGACCTCGCTGCAACATAAAATCCTCGCCATCGCGGAGGAGGAAGGGGTACGTCAGGCGGCGTATGCGCTGAAGCTGTTGCAGAGTGACGGGGAGCTGAAAATCGCCTCAACGGGCAAGGACGAGCAGTCGGGTGAGCTGGTGACGCGGGAGTACAAAGTCCAGGGGCCGGTGATGCTGATGTTAACCACCACGGCGTCGGACGTTGACGAGGAGCTGCTGAACCGCTGCCTGGTGCTGACGGTAAATGAGTCGCGGGAGCAGACGCAGGCGATACATGCGATGCAGCGCCGGGCGCAGACGCTGGAAGGGCTGCTGGCGCAGTCGGAAAAGGGTTATCTGACGCGCCTGCACCAGAACGCGCAGCGGCTGCTGCGGCCGCTGAAGGTGGTGAATCCTTACGCTGAGCGGCTGACGTTCCTGAGCGACAAGACCCGGACGCGGCGCGACCATATGAAGTACCTGACGCTTATCCAGGCAGTGGCGCTGCTGCATCAGCATCAGCGGGAGGTAAAACGGGCTGAGCATCGCGGGCAGGTGCTGGAGTATATCGAGGTGCAGCCGTCCGATATCGCGCTGGCGAATAAGCTGGCGCATGAAGTGCTGGGCCGGACGCTGGATGAGATGCCGCCGCAGACCAGGAAGCTGCTGTTACTGCTGAAGGAGATGGTCGGCGGGCTGGCGGAGTCGCAGAACTGCCAGCCCTCAGAGGTGCGGTTCTCACGGCGGGACATCCGCGAACGACTGCACTGGAGCGACAGCCAGCTGAAGCACCACTGCCTGCGGCTGGCGGAGATGGAATATCTGCTGGTCCACGGCGGAAGCCGTGGGCATCTGTTGCAGTATCAGCTGTTATGGGACGGCGGCGACGGAGAAGAAGCGCACCTGTGCGGGCTGCTGAACGTGGATGAAAACGCGAGTGGTGACGAGGGCGGCAACCGTAAGTTCGGGTCTGAGGATAGCAGGTCTGCCTTAAGTTCGGGTCAGGTTCGGGGTAAGTTCGGGCAGGAAAAAGTGGCGTCAGGTCAGGCGGCAGAAGGCTTACAGGCCGGAGTGGTTCGGGTTGATGAAAACGCAGTAATAAGAGAAAAAAAGAAAACGGTGCTGCCACCTTCGCCTTCGTTATCACAACCCTCTTCATCTTAG,dnaG_3,DNA primase
MYSP-0270,MYSP-0270-1_arrow,6_0_2282,MYSP-0270_02402,MNAINSLCAGMDMSAFAERLRLLREARSLSQVRLSELLGVDPRAYNRWEKGATAPHLETVIKIADVLQVTLDELTGRKAVSEEVKIRNHTLHALWQKADLLPDSDQQALIAVLDSFVKKSMVEQAIGFNSRR,ATGAACGCCATTAATTCATTGTGTGCAGGTATGGATATGTCAGCATTTGCAGAACGTCTTCGCTTGTTGCGTGAGGCCAGAAGTTTGAGTCAGGTTCGACTGTCCGAACTGCTGGGCGTTGATCCACGCGCCTATAACCGCTGGGAAAAAGGTGCAACAGCGCCTCACCTGGAGACGGTGATTAAGATTGCCGATGTGTTACAGGTGACGCTGGATGAACTGACGGGCAGGAAGGCCGTTTCGGAAGAGGTGAAGATCCGTAACCATACGCTTCATGCTCTGTGGCAGAAGGCAGATCTTTTACCGGACTCAGATCAACAGGCGCTGATCGCCGTGCTGGACAGTTTTGTTAAGAAGTCGATGGTTGAACAGGCAATAGGATTTAACAGCAGGCGTTAA,,hypothetical protein
MYSP-0270,MYSP-0270-1_arrow,6_0_2283,MYSP-0270_02403,MADTHHKSETRTPTTAASESRAHYYKVGYRPNKGQPNPLPQLTIKGRWLEALGFTTGQKIEVITGPGQLIIRLATEG,ATGGCTGACACGCATCATAAGTCAGAGACCCGCACACCCACAACCGCCGCCAGTGAATCGCGGGCGCATTATTACAAAGTGGGATACCGGCCTAATAAGGGCCAGCCGAACCCGCTGCCACAGCTCACTATCAAAGGCCGCTGGCTGGAAGCTCTGGGTTTTACCACCGGGCAGAAGATCGAGGTGATCACCGGGCCGGGACAGCTGATTATCCGGCTGGCGACTGAAGGGTAA,symE_4,Endoribonuclease SymE
MYSP-0270,MYSP-0270-1_arrow,6_0_2284,MYSP-0270_02404,MTLFEECQEALSADFEILENQEKKEAVDILNKYPFASGAISWPEIEYSDYENINDLLNVSLLKNADVFVLVDDASIPVFRTNLSLIAENIYDVTALSPKLFIFNNEIILQPLFPTEMFRLGIRSK,ATGACTTTATTTGAAGAGTGTCAAGAGGCGCTTAGTGCTGATTTCGAAATTCTTGAAAACCAAGAAAAGAAAGAAGCTGTTGATATTCTTAATAAATACCCTTTTGCAAGTGGGGCCATTTCTTGGCCCGAAATTGAATATTCGGATTATGAAAATATTAATGATTTATTGAATGTAAGTCTCCTGAAAAATGCTGATGTATTCGTTCTTGTAGATGATGCCAGCATTCCTGTTTTCAGGACAAACTTGAGTTTGATTGCTGAAAATATTTATGATGTTACAGCTTTATCACCGAAGTTATTTATTTTTAATAATGAAATTATACTACAACCTTTATTCCCGACAGAAATGTTCCGTTTGGGAATAAGATCTAAATAA,,hypothetical protein
MYSP-0270,MYSP-0270-1_arrow,6_0_2570,MYSP-0270_02698,MPIIAPIPRGERRLMQKAIHKTRDKNHARRLTAMLMLHRGERVSNVARTLCCARSSVGRWINWFTLSGVEGLKSLPAGRARRWPFEHICTLLRELVKHSPGDFGYQRSRWSTELLAIKINEITGCQLHAGTVRRWLPSAGLVWRRAAPTLRIRDPHKDEKMAVIRKALDECSAEHPVFYEDEVDIHLNPKIGADWQMRGQQKRVVTPGQNEKYYLAGALHSGTGKVSYAGGNSKSSALFISLLKRLKATYRRAKTITLIVDNYIIHKSRETQRWLKENPKFRVIYQPVYSPWVNHVERLWQALHDTITRNHQCRSMWQLLKKVRHFMETVSPFPGGKHGQAKV,ATGCCGATCATAGCACCTATTCCCCGTGGCGAAAGACGCCTGATGCAGAAAGCTATCCATAAAACGCGTGATAAAAATCATGCCCGCAGGCTCACCGCTATGCTGATGCTTCATCGGGGTGAGCGGGTCAGCAATGTCGCCAGAACGCTCTGCTGTGCCCGTTCATCCGTCGGACGCTGGATTAACTGGTTTACGCTGTCGGGTGTTGAAGGGCTGAAGTCATTACCCGCCGGGCGTGCCCGCCGTTGGCCGTTTGAGCATATCTGCACGCTGCTACGCGAGCTGGTAAAACATTCTCCCGGCGATTTTGGCTATCAGCGTTCACGCTGGAGTACAGAACTTCTGGCGATAAAAATCAATGAGATAACGGGATGCCAGTTGCATGCCGGAACCGTGCGCCGCTGGTTGCCGTCTGCGGGGCTTGTCTGGCGAAGGGCCGCGCCAACCCTGCGTATCCGCGACCCGCATAAAGATGAAAAAATGGCGGTAATCCGCAAAGCGCTGGACGAATGCAGCGCAGAGCATCCGGTATTTTATGAAGATGAAGTGGATATCCACCTCAATCCAAAAATCGGTGCGGACTGGCAGATGCGCGGGCAGCAAAAACGCGTGGTGACACCGGGGCAGAATGAAAAATACTATCTGGCCGGGGCGTTACACAGCGGAACGGGTAAAGTCAGCTATGCGGGCGGTAACAGCAAAAGTTCGGCGCTGTTCATCAGCCTGCTGAAGCGGCTTAAAGCGACGTACCGGCGGGCGAAAACCATCACGCTGATCGTGGACAACTACATTATCCACAAAAGCCGTGAAACACAGCGCTGGCTGAAGGAGAACCCGAAGTTCAGGGTCATTTACCAGCCGGTTTACTCGCCATGGGTGAATCACGTTGAACGCCTGTGGCAGGCGCTTCACGACACAATCACGCGCAATCATCAGTGCCGCTCAATGTGGCAATTGTTGAAAAAAGTTCGCCATTTTATGGAAACCGTCAGCCCGTTTCCCGGAGGAAAGCATGGTCAGGCAAAAGTGTAG,,IS630 family transposase ISEc33

carrere commented 4 years ago

89/7928 groups without sequence

grep -c '^>' pan_genome_reference.fa 
7839

wc -l gene_presence_absence_roary.csv 
7929 gene_presence_absence_roary.csv

wc -l gene_presence_absence.csv 
7929 gene_presence_absence.csv

gtonkinhill commented 4 years ago

Hi,

This is poorly documented but intentional behaviour. We only return a single reference sequence for each centroid/paralog cluster. This was done to reduce duplications in the generated reference that can cause issues for read alignment.

I am hoping to improve the documentation soon. If there is a strong need for including duplicated sequences we could look at adding an option to include them.

carrere commented 4 years ago

Hi,

Sorry, but I still not understand why those groups do not have any sequence in the resulting pangenome fasta file. I understand that you take only one sequence per group (centroid) and so in the case of singleton groups (gene presents in only one copy in only one genome) you should add this gene to the resulting pangenome ? Am I right ?

Or that means these groups are paralogs of other, but in that case, how can I get this information ?

Thanks for your help.

Sebastien

carrere commented 4 years ago

Ok I think I found this information in the final_graph.gml (attribute paralog = 1, centroidID)

gtonkinhill commented 4 years ago

Yes, that's it. I will update the documentation to include this information.

kneubehl commented 3 years ago

As a follow up to this question regarding paralogs from the .gml file, I just want to make sure I am understanding the table output from cytoscape. What I want to be able to do is determine which group is paralogous to groups in the pangenome reference file. It looks like I can use the longCentroidID to tie a paralogous group with another group's centroid correct?

Shortened the header a little so it would be easier to see on here:

centroid	description	geneIDs	label	longCentroidID	name	paralog	seqIDs	shared name
1_1_14	DUF792 family protein	1_4_15	5442	1_1_14	group_2121	1	1_4_15	group_2121

If I am reading this right it, this row would be for geneID 1_14_15 which is group_2121 which is paralogous to centroid 1_1_14 in another group. What confuses me is that 'centroid' can have multiple geneIDs in it but longCentroidID only has one, what exactly is longCentroidID? Also, what is the shared name header? At first glance I would expect that to be the group name which this gene is paralogous to and is actually in the pangenome reference file but that is just me.

gtonkinhill commented 3 years ago

Not quite. I should really remove the longCentroidID from the final output as it is mainly used to help speed things up internally. The centroid field should allow you to match up paralogous genes. The reason it can have multiple entries is due to the family collapsing stage of the algorithm.

The shared name field should also be ignored for the moment and will probably be removed in a later release. I'm hoping to improve the documentation for these fields soon.

gtonkinhill / panaroo

Groups without sequence in pan_genome_reference.fa #45