yangao07 / abPOA

abPOA: an SIMD-based C library for fast partial order alignment using adaptive band
MIT License
118 stars 18 forks source link

Multiple Consensus Sequences Miss Alleles #73

Open Lidweixiang opened 1 month ago

Lidweixiang commented 1 month ago

Hi,

I use abPOA to produce multiple consensus sequence, three most frequency sequences are

1 with a depth 25 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 2 with a depth 40 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 3 with a depth 23 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT

But the high depth allele "3" missing in the final consensus sequences ? I just curious how abPOA cluster the input sequence and whether I have taked some mistakes.

The command I run is: -d6 -m 0 -q 0.01 -a 0

The input fasta file is as below:

0 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 1 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 2 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 3 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 4 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 5 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 6 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 7 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 8 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 9 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 10 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 11 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 12 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 13 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 14 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 15 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 16 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 17 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 18 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 19 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 20 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 21 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 22 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 23 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 24 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 25 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 26 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 27 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 28 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 29 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 30 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 31 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 32 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 33 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 34 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 35 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 36 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 37 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 38 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 39 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 40 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 41 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 42 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 43 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 44 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 45 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 46 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 47 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 48 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 49 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 50 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 51 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 52 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 53 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 54 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 55 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 56 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 57 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 58 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 59 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 60 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 61 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 62 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 63 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 64 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 65 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCTTTTTTCCTC 66 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCTTTTTTCCTC 67 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCTTC 68 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCTTC 69 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 70 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 71 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 72 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 73 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 74 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 75 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 76 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 77 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 78 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 79 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 80 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 81 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 82 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 83 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 84 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 85 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 86 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 87 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 88 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 89 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 90 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 91 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 92 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCCTTTTTCCTC 93 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCCTTTTTCCTC 94 CCCTCCCCTCCTTTCTTTCTCCCTTTCTCCCTCTCTTGCTCTTTCATTT 95 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTGCCTC 96 CCCTCCCTTCCTTTCTTTCTCTCTTTCGCCCTCTCTTTCTCTTTCATTTTTCCTC 97 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCTTTTCTCCCC 98 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCTTTTTC 99 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTGCTCGTTCATTTTTCCTC 100 CCCTCCCTTCCTTTCTTTCCCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCCC 101 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCGTTTTCTCTTTCATTT 102 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCCCTTTCTCTCTCATCTTTCCTC 103 CCCTCCCTTCCTTTCTTTCTCTCTTTCTTTCTCTCTTTCTCTTTCTTTT 104 CCCTCCCTTCCTTTCTTTCTCTCTTTCCCCCTCCCTTTCTCTTTCA 105 CCCTTCCTTCCTTTCTTCCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 106 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCCCTTTCATTTTTCCTC 107 CCCTCCCCTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTT 108 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCTTTT 109 CCCTTCCTTCCTTTCTTTCTCCCTTTCTCCCTCTCTTTCTCTTTCCTTTTTCCTC 110 CCCTCCCTTCCTTTCTTTGCCTCTTTCTCTCTCTCTTTCTCTTTCATTTTCCCCC 111 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCCTTTTTCCTCC 112 CCCTCCCTCCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATT 113 CCCTCCCTTCCTTGCTTTCTCTCTTTCTCCCTCTCTTTCTGTTTCATTT 114 CGCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTTTCTTTCTTTTTTCCTC 115 CCCTTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTTTTTCTTTTTTCCTC 116 CCCTCCCCCCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCCTTT 117 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCCTTT 118 CGCTTCCTTCCTTTGTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTTCTC 119 CCGTCCCTTACTCTCTTTATCTCTTTCTCCTTCTCTCTCTCTTCCGTTTTTCCTC 120 CCCTTCCTTCCTTTCTGTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 121 CCCTTCCTTCCTTTCATTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCTC 122 CCCTCCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTCCT 123 CCCTCCCTTCCTTTCTTTCTCTCTTTCCCCCTCTCTTTCTCTTTCATTT 124 CCCGCACTTCCTTTCGTTCTGTCGTTCTCTCTCTCTTTCTCTTTCATTTTTCCTC 125 CCCGTCCTTCCTTTCTTTCTCTCTTTCTCCCTCTCTTTCTCTTTCATTTTTTCTC

yangao07 commented 1 month ago

Currently, abPOA only works for at most 2 consensus sequences. Sorry that it was not described clearly.

We may extend it to 3 or more cons. in the future.

Lidweixiang commented 1 month ago

Thanks, yan!

In the new version of your release, 3 or more cons are supported as mentioned. In the GitHub, you have mentioned The general underlying idea is to group input sequences into multiple clusters based on the heterozygous bases in the graph, Then, one consensus sequence is separately generated for each cluster of input sequences. The minimum allele frequency for each heterozygous base is 0.25. But in my case, the third most common sequences are higher than this threshold.

Best regards, Weixiang

yangao07 commented 1 month ago

Again, only up to 2 consensus sequences can be output by abPOA for now.