MatthiasHerrmann / Long_Range_RNA_Interactions

Genomic long range RNA-RNA interactions in flaviviruses
0 stars 1 forks source link

[intarna] Einit=0 setzen ?!? #7

Closed martin-raden closed 8 months ago

martin-raden commented 8 months ago

mir fiel gerade was ein...

derzeit verwenden wir das "normale" IntaRNA, das ja energien berechnet, unter der annahme, dass die beiden RNAs frei im raum schweben.. sprich es gibt die energy penalty "E_init", welche in irgendeiner magischen art und weise die geringe wahrscheinlichkeit reinrechnet, dass sich die beiden moleküle überhaupt erstmal lange genug treffen, um eine interaktion auszubilden..

nun haben wir hier aber ein molekül und noch dazu kein sehr großes. wenn wir also normale strukturvorhersage machen würden (um die pan-handle RRI vorherzusagen), würden wir keine penalty verwenden...

daher die Frage (@mtw): brauchen wir die Einit penalty oder sollten wir die besser weghauen und bekommen ggf. nochmal andere predictions?

martin-raden commented 8 months ago

@MatthiasHerrmann : bitte mal einen neuen subbranch (vom "seedbp5-acc50") anlegen, in dem du die Einit=0 setzt.

selbiges kannst du nicht direkt tun, aber du kannst auf alle interactions einen energiebonus draufhauen via (--energyAdd)[https://github.com/BackofenLab/IntaRNA#energy-parameters-and-temperatures]. In unserem Falle also -4.1 kcal/mol, weil Einit=+4.1.

zB direkt im static parameter cfg file:

energyAdd=-4.1
mtw commented 8 months ago

Die Sache mit den initialization penalty ist ein wichtiger Punkt: Im biologischen Kontext existieren diese virale genome ale ein langes (10-12kb) RNA Molekül, das irgendwo in wässriger Lösung (Cytosol) herum schwimmt. Dabei sitzen haufenweise Proteine auf dieser RNA, von denen wir aber nicht genau wissen ob und wenn inwiefern sie die long-range Interaktion zwischen den beiden Enden (5'UTR und 3'UTR) beeinflussen. Wenn wir mal davon ausgehen dass es keiner Hilfe durch Proteine bedarf, sondern sich die beiden Enden des Genoms mehr oder weniger zufällig finden können wir in erster Näherung die beiden Enden als separate RNAs betrachten. Ich kann nicht wirklich abschätzen ob die initiation Penalty einen großen Unterschied macht. Können wir wir (zu Testzwecken) die Interaktion der Enden eines kompletten Virus-Genoms berechnen, und da eben nur Interaktionen in jenen Bereichen in und um die UTRs erlauben? Das eventuell mit und ohne der initialization pealty, und dann schauen ob die Ergebnisse markant vom bisherigen Ansatz (nämlich die Genom-Enden separat zu betrachten) abweichen.

martin-raden commented 8 months ago

mhh... also wäre nach ersten Überlegungen das IntaRNA Modell (Interaktion unabhängiger RNAs) korrekt..

Dein Vorschlag entspricht am Ende einer prediction ohne Einit, die ich Matthias schon aufs Auge gebunden habe.. 😃

Bin gespannt, ob sich da grundlegend was ändert. Kann schon sein, weil dadurch ggf. mehr seeds den Energiefilter überleben...

martin-raden commented 8 months ago

mach mal zwei runs:

MatthiasHerrmann commented 8 months ago

Habe das mal probiert! Erst mit energyAdd -4.1 ( https://github.com/MatthiasHerrmann/Long_Range_RNA_Interactions/tree/seedbp5-acc50-einit0 ) und dann mit -2 (dafür habe ich derzeit keinen extra branch aufgemacht, aber hier ein Bild: interaction_lineplot_energyadd-2

Von dem was ich sehe sind die Änderungen für die main Interactions fast gar nichts (außer, dass die Energien 2/4 niedriger sind natürlich) UND dass das erste/unterste sample im Vergleich zu dem von seedbp5-acc50 mit einem der subopts getauscht hat, sprich selbst zum subopt wurde und das subopt jetzt das optimale ist. Die subopts selbst haben überall so wie ich das sehe ziemlich herumgewechselt (es könnten auch mehr sein), aber die Regionen in denen sie sind scheinen ungefähr die selben zu sein. So wie ihr die Wichtigkeit von Einit/energyAdd beschreibt, weiß ich nicht wirklich, ob das jetzt ein gutes Zeichen ist, dass sich so wenig verändert...?

MatthiasHerrmann commented 8 months ago

Ah und weil ich das in Github Desktop immer ganz praktisch finde, man das aber auf Github selbst nicht machen kann, hier ein Bild wo man alle Stellen sehen kann die sich von seedbp5-acc50 zu seedbp5-acc50-einit0 geändert haben. Das grüne ganz unten in beiden plots ist das wo sich die Hauptinteraction site geändert hat beim 1. sample, die anderen farblichen Markierungen sind alle subopts die verschwunden oder neu erschienen sind. Nicht super hilfreich, aber ich finde das immer interessant difference

martin-raden commented 8 months ago

Hi Matthias, ja hast vollkommen Recht: die Auswirkungen sind marginal. Mehr subopts (ggf. ein bissl länger) aber das grundlegende Bild bleibt das gleiche wie in seedbp5-acc50.

Find ich nicht schlimm eher beruhigend, dass das ganze nicht allzu anfällig bzgl. Parameteränderungen ist. Zu sensible System sind i.d.R. prone to bias und false predictions.

Ergo: Danke fürs Testen und ab damit in die Versenkung!

Ggf. kannst du in deiner Thesis in dem Bereich wo du die verwendeten Parameter diskutierst einen Absatz dazu schreiben. Sprich Warum haben wir es getestet? Was kam raus sodass wirs dann doch gelassen haben. Da muss auch keine Grafik oder dergleichen dazu. Einfach beschreiben und sowas wie "data not shown" und fertig.

Das Issue kannst du zu machen, wenn du das gelesen hast (und ggf. in der thesis entsprechend was reingehackelt hast, um es nicht zu vergessen...) 😜

👍