donEnno / gamma_delta

1 stars 0 forks source link

Alternativen zum Biopython-Ansatz #10

Closed donEnno closed 3 years ago

donEnno commented 3 years ago

Die schlechte Nachricht zuerst: Ich habe vorhin mal gecheckt, wie weit die erste DM denn ist und alles war in Ordnung. Dann wollte ich das Fenster (nicht den Screen) mit Alt + Shift + Tab wechseln und auf einmal sind alle Jobs augenblicklich durchgerattert und das Skript war beendet. Kann sein, dass ich mich vertippt habe beim Wechseln und wenn ja, weiß ich leider nicht welche Kombi genau ich gedrückt habe, auf jeden Fall war das sc*#!$e. Es läuft jetzt auf jeden Fall wieder und ich werde nicht nochmal checken, wie weit er ist, sondern am Mo oder Di checken, ob das DM-File da ist.

TL;DR Ich habs geschafft das Skript abzubrechen und die 3 Tage sind futsch.

Während ich das schreibe, habe ich nochmal den nächsten Durchlauf gecheckt und da war nach ca. 100 Iterations folgender Fehlermeldung:

joblib.externals.loky.process_executor.TerminatedWorkerError: A worker process managed by the executor was unexpectedly terminated. This could be caused by a segmentation fault while calling the function or by an excessive memory usage causing the Operating System to kill the worker.

Ich eben versucht aus ClustalO die DM rauszuholen und das sowohl von PyCharm aus (ja, es gibt einen ClustalO-Wrapper), als auch, eher ausversehen, von der VM-Kommandozeile gestartet. Das war dann wohl zu viel für die VM.

Zum eigentlichen Teil dieses Issues: Als nächstes werde ich, wie gesagt, versuchen die ClustalO DM zu verwerten. Das hat heute leider nicht auf Anhieb geklappt. Weiter werde ich mich nochmal mit T-Coffee, MUSCLE und weiteren Tools beschäftigen, in der Hoffnung, dass ich da an die Distanzen komme. Ich erinnere mich, dass man bei T-Coffee, zwar nicht an die Distanzen direkt kommt, aber sowohl ein .dnd-File (das ist der Guide-Tree für das MSA) als auch ein Clustering ausgeben kann. Dieses müsste ich ja (hoffentlich) analog zum Feature-Bau verwenden können, oder?

TL;DR Ich werde neben der ClustalO DM versuchen, die generierten Cluster von anderen Tools als Feature zu verwenden.

mbruhns commented 3 years ago

TL;DR Ich habs geschafft das Skript abzubrechen und die 3 Tage sind futsch.

Das verbuchen wir mal unter "Fehler, die man (hoffentlich) nur einmal macht." 😄

Ich erinnere mich, dass man bei T-Coffee, zwar nicht an die Distanzen direkt kommt, aber sowohl ein .dnd-File (das ist der Guide-Tree für das MSA) als auch ein Clustering ausgeben kann. Dieses müsste ich ja (hoffentlich) analog zum Feature-Bau verwenden können, oder?

Genau, für das Feature-Engineering brauchst du am Ende ja "nur" die Zugehörigkeit zu den Clustern.

donEnno commented 3 years ago

Zum einen verarbeite ich dich die DMs die jetzt nach und nach (immer noch mit langer Laufzeit) in der VM berechnet werden. Zum einen natürlich die statistische Interpretation der Models und zum anderen werde ich versuchen die Feature-Vektoren dann mal zu konkatenieren, wie Manfred im vorletzten Meeting vorgeschlagen hatte und zeige ich dann im nächsten Meeting was dabei rauskommt.

Zum anderen geht es ja auch um die Alternativen zur bloßen DM Berechnung: Ich habe mich jetzt erstmal mit MUSCLE auseinandergesetzt und versuche aktuell den phylogenetischen Baum der dabei rauskommt in eine DM umzuwandeln bzw. direkt die Cluster/Clades des Baumes auszulesen. Der Baum ist im newick Format und enthält auch Distanzen. Für das auslesen der DM aus dem newick Format habe ich online auch ein Skript gefunden, das läuft allerdings wieder seehr lange. Ich habe es aber auch noch nicht Versucht parallel zu implementieren, weil ich die VM nicht überladen will (Hier laufen gerade die DMs und ab und zu MUSCLE).

Das nur als kleines Statusupdate.