Open mbruhns opened 2 years ago
Es wäre mucho fantastisch, wenn du vor unserem Meeting folgendes machen könntest:
Ist jetzt relativ spontan, also kein Stress, falls das nicht mehr klappt!
Moin!
Plot 1 zeigt die übereinander gelegten Histogramme der log-Sequenz-Counts je Klasse (BL, FU, HD). Plot 2 zeigt ie log-Sequenz-Counts aller aller Samples. Ich habe hier mal verschiedene Cutoffs anders gefärbt.
Dunkelblau = Sequenzen mit mehr als 1k Counts, Hellblau = Sequenzen mit Counts zwischen 1k und 500, Rose = Zwischen 500 und 100 und, Rot = alles unter 100.
Es gibt 26 470 unique Sequenzen bzw. 17 408 die in mehr als einem Sample vorkommen. Die Top 10 Sequenzen sind dabei:
Sequenz | #Apperances | Frac.-Occurence |
---|---|---|
CACDTLGDTDKLIF | 67 | 0.446 |
CACDILGDTDKLIF | 49 | 0.326 |
CACDTVGDTDKLIF | 47 | 0.313 |
CACDTVTGGYRYTDKLIF | 46 | 0.306 |
CACDTVGGYTDKLIF | 39 | 0.260 |
CACDVLGDTDKLIF | 39 | 0.260 |
CACDTVLGDTWDTRQMFF | 35 | 0.233 |
CACDTVLGDSSWDTRQMFF | 34 | 0.226 |
CACDKLGDTDKLIF | 31 | 0.206 |
CACDTLLGDTDKLIF | 30 | 0.200 |
Implementieren hat soweit geklappt bis auf folgendes: scCODA/issues/40.
Mit conda install tensorflow=2.4.0
bzw. conda install tensorflow-probability=0.12.0
habe ich zwar die Versionen installiert, aber wenn ich auf der VM conda list
eingebe, sagt mir die VM, dass tf und tf-probability noch auf neueren Versionen installiert sind.
Deshalb erhalte ich immer die Warnings aus dem Issue. Du hast aber mal etwas gesagt along the lines of "Warnings sind keine Errors, also egal".
Edit: Well, ich wollte eben nochmal einen Run starten und jetzt sagt er
ImportError: This version of TensorFlow Probability requires TensorFlow version >= 2.8; Detected an installation of version 2.4.0. Please upgrade TensorFlow to proceed.
Im
requirements.txt
stehttensorflow>=2.8
bzw.tensorflow-probability>=0.16
. Dann wohl mit den Warnings leben, oder hast du einen Vorschlag?
Durchgelaufen ist es trotzdem und für 8, 20, 200 Cluster habe ich Ergebnisse. Hier die Frage: Sind wir nur an den log(FC) interessiert, so wie in der Grafik die erstellt hast abgebildet? Für 8 und 20 Cluster gibts da nämlich nur nullen (hier frage ich mich, ob das an der Warnings liegen kann). Für 200 Cluster aber kommen viele Nicht-Nullen bei den log(FC).
Soll ich das ganze als .csv hochladen, oder eine Verteilung der fold-changes erstellen?
Im Paper steht, dass scCODA eine log-linear relationship zwischen Covariates und den Cell abundancies erwartet und ich bin mir nicht sicher, ob das bei uns gegeben ist. Ich habe jetzt erstmal trial-and-error gemacht und mir nicht zu viele Gedanken über die Mathematik gemacht. Falls du da nicht einen smarten Einfall hast, werde ich die Tage da mal etwas tiefer einsteigen.
Weiter steht im Paper, dass sich möglicherweise ein "joint modeling of different resolutions" für Daten lohnen kann, bei denen man keine ground truth hat. Also quasi was wir mit den Feature-Vektoren in der BA gemacht haben. Das werde ich ggf. auch mal ausprobieren, es sei denn du legst ein Veto ein 😝
Schließende Anmerkung
Das ist jetzt sehr viel. Ich habe die Woche immer wieder weiter gemacht, ohne was zu pushen bzw. hochzuladen, sorry für diese Wall of Text! Wird nächste Woche anders laufen.
LG und frohe Ostern!
Ahoi,
das soll erstmal nur ein kleiner Pitch für unser Meeting morgen sein. Hatte gerade die Überlegung, ob wir das grundsätzlich betrachtete Problem umformulieren. Bisher gehen wir ja den "Umweg" über den Klassifikator, der auf den Daten trainiert werden soll. Alternativ könnten wir auch alle Daten clustern und dann darauf die Analysen machte. Statistisch wäre dann die Frage, wie sich Cluster-Kompositionen zwischen Kohorten unterscheiden. Also quasi: welche Cluster sind signifikant verschieden abundant, wenn Kohorten verglichen werden. Anbei eine Grafik, um die Idee zu verdeutlichen.
Details besprechen wir morgen, freue mich auf deine Einschätzung !✌🏻