Closed martin-raden closed 6 years ago
Gerade angekommen. Die letzten zwei haben sich beim Gehen zum Zug geklärt. Unter Bedinung S_rand <= S_max resultiert tatsächlich, dass die Alignment-Länge die Anzahl Columns ist und man iteriert tatsächlich über die Menge von Buchstaben in den Alignments (und nicht über jede Stelle). Ansonsten, ist es wie du gesagt hast: S_rand würde zu groß werden...
bzgl. implementation. in dieser implementierung verwenden sie auch die anzahl der columns die nicht komplett gap sind (kann passieren aufgrund des placeholders) als alignmentlänge ttlseq1
und iterieren über das alphabet anstatt die sequenzpositionen.
hab auch das paper gefunden (kommt per mail). darin ist das d
der gap-score aus den alignments!
allerdings ein bissl fraglich, wie man das mit den affine gap costs verknüpft. ggf. einfach den gap(1) score nehmen.
Ok, super danke für die schnelle Beschaffung und die zwei Kommentare. :)
Habe glaube ich eine Idee, die Sinn machen würde eventuell, muss austesten... S_rand = (1/L) (SumSum ...) - numOfGaps enlargement - numOfStarts baseCosts
Wobei laut Paper, dass d negiert ist (weil es eine Penalty ist), also eigentlich (1/L) (SumSum ...) - numOfGaps (-enlargement) - numOfStarts (-baseCosts)
Vorteil: wären baseCosts = 0, dann wird der gewöhnliche Feng-Doolittle unter Needleman-Wunsch ausgeführt. Also, könnte man den gewöhnlichen Feng-Doolittle mit dem hier auch wieder simulieren...
Gruß, Alex
klingt gut, das wär natürlich eine viel sauberere lösung als mein vorschlag. 😄
getNextClusterName()
: cluster name = concatenation der singleton cluster namesgetMaximumScore(sequence)
produkt nutzen.. ;)getExpectedScore()
ob i,j als mengenelemente von mengenzusammenfassung von a,b zu verstehen sind