Datamonkey does not recognized some sequences

K-Gutierrez commented 6 months ago

Hi,

I'm currently attempting to analyze seven different genes using the aBSREL and MEME models. To prepare my data, I generated a FASTA file containing the sequences and performed codon alignment using Pal2NAL.

However, upon importing this file into the DataMonkey website, I noticed that the program failed to recognize some of the sequences. After thorough inspection, I confirmed that none of the sequences contain special characters, there are no repeated IDs, and there are no duplicated sequences. I am not sure what is the issue.

Here is an example of my fasta file. Where 1, 2 4 are recognized by DataMonkey.

1 gaaagcagcaacagcaaaaccaacaccaccaacagcaaaattagcgcgggccagaccatt agcagcgtgctgaaccagaaaaccaaagaactgccgagcctggataccctgaaaaacgcg accacctatgcggatcagcataccggctatggcaacagcattaccatgggcgatggcagc agcgcgaactatccggcgatttatagccgcattgatggcatggcgaccaaaaccattacc accaccagcgatgataacggcgatagctatggccaggcgaactatgcgaacaacaacatt cagtatcagtatgtggataccgtgcagattacctttaaaaacagcgatggcaccaccctg gtgggcattagcaccaaccagccggcgattaacccggcgaccggcggcgtgagcgatagc agcctggcgcgccagggctatctgtataccgtgacc 2 gaaaacagcagcagcaaagtgagcgtgaccgaaaacagcagcagcaaaagcaaaaccacc gcgagcatgctgaacaccagcaccaacgaactgccgagcctgcagaccctgaaaagcgcg accgcgtatgcgaaccagcataccggcgcggcgcataacattaaaattggcaacggcagc acccaggatcgcagcgtgttttataacagctggaccgatatgaaaaaagtgccgctgacc ctgagcgataccgataacggcgataactatggccaggcgaactatgcgaacaacaacatt cagtatcagtatgtggataccgtgcagattacctttaaaaacagcgatggcaccaccctg gtgggcattagcaccaaccagccggcgattaacccggcgaccggcggcgtgagcgatagc agcctggcgcgccagggctatctgtataccgtgacc 3 gaaagcagcaacagcaaaaccaacaccaccaacagcaaaattagcgcgggccagaccatt agcagcgtgctgaaccagaaaaccaaagaactgccgagcctggataccctgaaaaacgcg accacctatgcggatcagcataccggctatggcaacagcattaccatgggcgatggcagc agcgcgaactatccggcgatttatagccgcattgatggcatggcgaccaaaaccattacc accaccagcgatgataacggcgatagctatggccaggcgaactatgcgaacaacaacatt cagtatcagtatgtggataccgtgcagattacctttaaaaacagcgatggcaccaccctg gtgggcattagcaccaaccagccggcgattaacccggcgaccggcggcgtgagcgatagc agcctggcgcgccagggctatctgtataccgtgacc 4 gaaaacagcagcagcaaagcgagcagcaccgaaaacagcagcagcaaaagccagaccacc gcgagcgtgctgaacaccaacctgaacgaactgccgagcctgcagaccctgaaaagcgcg accgcgtatgcggatcagcatgtgggctatggcaacaccctgagcatgggcgatggcagc agcgcgaactatccggcgatgtattatcagctgggcggcgtgaccaccaaaaccctgagc accaccagcagcgataacggcgatagctatggccaggcgaactatgcgaacaacaacatt cagtatcagtatgtggataccgtgcagattacctttaaaaacagcgatggcaccaccctg gtgggcattagcaccaaccagccggcgattaacccggcgaccggcggcgtgagcgatagc agcctggcgcgccagggctatctgtataccgtgacc 5 gaaaacagcagcagcaaagtgagcgtgaccgaaaacagcagcagcaaaagcaaaaccacc gcgagcatgctgaacaccagcaccaacgaactgccgagcctgcagaccctgaaaagcgcg accgcgtatgcgaaccagcataccggcgcggcgcataacattaaaattggcaacggcagc acccaggatcgcagcgtgttttataacagctggaccgatatgaaaaaagtgccgctgacc ctgagcgataccgataacggcgataactatggccaggcgaactatgcgaacaacaacatt cagtatcagtatgtggataccgtgcagattacctttaaaaacagcgatggcaccaccctg gtgggcattagcaccaaccagccggcgattaacccggcgaccggcggcgtgagcgatagc agcctggcgcgccagggctatctgtataccgtgacc

stevenweaver commented 6 months ago

Dear @K-Gutierrez,

3 is a duplicate of 1. 5 is a duplicate of 2.

Best, Steven

K-Gutierrez commented 6 months ago

Oh! good catch! Thank you!

stevenweaver commented 6 months ago

No problem, glad I could help.

veg / hyphy

Datamonkey does not recognized some sequences #1699