oleuml / biodatabase

0 stars 0 forks source link

Annotation neu erstellen #2

Open DorotheaMueller opened 6 years ago

DorotheaMueller commented 6 years ago

Abschnitte des Chromosomes neu einlesen (regex_annotation.py): Für Gen nimm Exons (direkt annotiert), ermittel Promoterregion (vor dem Genstart), ermittel Introns (alles auf Gen, was nicht Exon ist) und Enhancer (Region zwischen den Genes). Check, dass der Index immer noch von Anfang an gezählt wird.

oleuml commented 6 years ago

Das meiste davon ist implementiert und in 'find_genecodes.py' zu finden. Probleme bereiten derzeit noch die Level. Hier wäre die Frage, ob wir diese überhaupt abspeichern müssen. Evenutell reichen hier ja auch nur die Daten ohne Unterscheidung, um welches Level es sich hier handelt. Enhancer stehen noch nicht in der Tabelle mit drin. Kann man aber schnell implementieren.

oleuml commented 6 years ago

Indizes machen noch Schwierigkeiten. Alles ist zwar nullbasiert. Doch folgende Frage besteht noch, ob die Exonstops auf dem letzten Zeichen enden oder danach. Diese Anpassung ist aber schnell erledigt, wenn festgestellt wird, welchen Fall wir an dieser Stelle haben.