BackofenLab / Cherri

https://backofenlab.github.io/Cherri/
GNU General Public License v3.0
0 stars 0 forks source link

neg strand sequence extraction kaputt?? #66

Closed martin-raden closed 5 months ago

martin-raden commented 6 months ago

Hi Teresa,

für die Eingabe

chrom1,start1,stop1,strand1,chrom2,start2,stop2,strand2
21,8394464,8394515,+,2,231456452,231456507,-

Würde ich folgende sequenzen als core regions erwarten (mit diesem link abgerufen)

>seq1=target
>hg38_dna range=chr21:8394464-8394515 5'pad=0 3'pad=0 strand=+ repeatMasking=none
GAACTTGACTATCTAGAGGAAGTAAAAGTCGTAACAAGGTTTCCGTAGGTGA

>seq2=query
>hg38_dna range=chr2:231456452-231456507 5'pad=0 3'pad=0 strand=- repeatMasking=none
TTACCTGAGAAATAATTGATGAAATCTCAAGAAAATTCCTCTAGATAGTCAAGTTC

wenn ich mir in cherri den IntaRNA call rausfische, bekomme ich

IntaRNA -t \
AAGUGCGGGUCAUAAGCUUGCGUUGAUUAAGUCCCUGCCCUUUGUACACACCGCCCGUCGCUACUACCGAUUGGAUGGUUUAGUGAGGCCCUCGGAUCGGCCCCGCCGGGGUCGGCCCACGGCCCUGGCGGAGCGCUGAGAAGACGGUCGAACUUGACUAUCUAGAGGAAGUAAAAGUCGUAACAAGGUUUCCGUAGGUGAACCUGCGGAAGGAUCAUUAACGGAGCCCGGAGGGCGAGGCCCGCGGCGGCGCCGCCGCCGCGCGCUUCCCUCCGCACACCCACCCCCCCACCGCGACGCGGCGCGUGCGCGGGCGGGGCCCGCGUGCCCGUUCGUUCGCUCGCUCGUUCG -q \
GCAAGGACCCAGGGGAUCACCUAAUGCCAGAAGCCGUAAGUUCACCUGGUUAGGGUGCUGUGGUUGGGGGUAGCACUCUCGGUGCUUUGUUUAUUUUUUGCACAAAUUCUGUGUUUCCUGUUGCUACUGAGUGAACAAUAACUGGAUAUGAUGACUGAUUACCUGAGAAAUAAUUGAUGAAAUCUCAAGAAAAUUCCUCUAGAUAGUCAAGUUCUGAUCCAGCUGUGUCAACUCAGAGUAGCAAGUUUGCCCAUGAUUUCCUGCCCCAUCCACUGGGCCCCACCUGCUUGGGUUGCUUCUCCCACUUUCCAUAGAAGAUCUGGGGCAGGAUAUCAACUAUGCAAUGGCAAUUAAA \
--parameterFile=/home/mmann/miniconda/envs/cherri/lib/python3.9/site-packages/rrieval/IntaRNA_param/IntaRNA_param.txt --outNumber=5 --seedQRange=151-205 --seedTRange=151-201 --seedMaxE=0 --outCsvCols id1,start1,end1,id2,start2,end2,subseqDP,hybridDP,E,seedStart1,seedEnd1,seedStart2,seedEnd2,seedE,E_hybrid,ED1,ED2

wenn ich aus den sequenzen jetzt die seedRanges extrahiere, bekomme ich

> target core (+ strand) 151-201
 AACUUGACUAUCUAGAGGAAGUAAAAGUCGUAACAAGGUUUCCGUAGGUGA
statt
GAACTTGACTATCTAGAGGAAGTAAAAGTCGTAACAAGGTTTCCGTAGGTGA

> query core (- strand) 151-205
AUGACUGAUUACCUGAGAAAUAAUUGAUGAAAUCUCAAGAAAAUUCCUCUAGAUA
statt
        TTACCTGAGAAATAATTGATGAAATCTCAAGAAAATTCCTCTAGATAGTCAAGTTC

sprich

oder mach ich den input für negative stränge falsch?!?

teresa-m commented 6 months ago

Mit Input: chrom1,start1,stop1,strand1,chrom2,start2,stop2,strand2 21,8394464,8394515,+,2,231456452,231456507,-

bekomme ich folgenden IntaRNAcall:

IntaRNA\ -t  AAGUGCGGGUCAUAAGCUUGCGUUGAUUAAGUCCCUGCCCUUUGUACACACCGCCCGUCGCUACUACCGAUUGGAUGGUUUAGUGAGGCCCUCGGAUCGGCCCCGCCGGGGUCGGCCCACGGCCCUGGCGGAGCGCUGAGAAGACGGUCGAACUUGACUAUCUAGAGGAAGUAAAAGUCGUAACAAGGUUUCCGUAGGUGAACCUGCGGAAGGAUCAUUAACGGAGCCCGGAGGGCGAGGCCCGCGGCGGCGCCGCCGCCGCGCGCUUCCCUCCGCACACCCACCCCCCCACCGCGACGCGGCGCGUGCGCGGGCGGGGCCCGCGUGCCCGUUCGUUCGCUCGCUCGUUCG \-q CCAGGGGAUCACCUAAUGCCAGAAGCCGUAAGUUCACCUGGUUAGGGUGCUGUGGUUGGGGGUAGCACUCUCGGUGCUUUGUUUAUUUUUUGCACAAAUUCUGUGUUUCCUGUUGCUACUGAGUGAACAAUAACUGGAUAUGAUGACUGAUUACCUGAGAAAUAAUUGAUGAAAUCUCAAGAAAAUUCCUCUAGAUAGUCAAGUUCUGAUCCAGCUGUGUCAACUCAGAGUAGCAAGUUUGCCCAUGAUUUCCUGCCCCAUCCACUGGGCCCCACCUGCUUGGGUUGCUUCUCCCACUUUCCAUAGAAGAUCUGGGGCAGGAUAUCAACUAUGCAAUGGCAAUUAAAAAAUGUAA \--parameterFile=/home/teresa/miniconda3/envs/cherri/lib/python3.9/site-packages/rrieval/IntaRNA_param/IntaRNA_param.txt --outNumber=5 --seedQRange=151-205 --seedTRange=151-201 --seedMaxE=0 --outCsvCols id1,start1,end1,id2,start2,end2,subseqDP,hybridDP,E,seedStart1,seedEnd1,seedStart2,seedEnd2,seedE,E_hybrid,ED1,ED2

Wenn ich mir hier die postitionen auschneide dann bekomme ich auch für die query sequenz nur den shift um einen pos

 TTACCTGAGAAATAATTGATGAAATCTCAAGAAAATTCCTCTAGATAGTCAAGTTC
AUUACCUGAGAAAUAAUUGAUGAAAUCUCAAGAAAAUUCCUCUAGAUAGUCAAGUU 

Hast du den IntaRNA call aus dem file den ich dir gestern geschickt hab?

teresa-m commented 6 months ago

cherri_conda_list_teresa.txt

martin-raden commented 6 months ago

Hi Teresa,

Teilentwarnung: Das Problem saß vor dem Bildschirm. Hatte nicht erwartet, das Cherri erzeugte sequenzdaten recycled. Sprich alle meine cherri runs laufen ins gleiche verzeichnis und dadurch hatte ich noch die sequenzen von vor meiner indexkorrektur.. 🤯

ggf. prüfen, ob das dokumentiert ist.. 😜

die ergebnisse sehen immer noch nicht so prall aus. zwei target sequenzen sind noch nicht korrekt (falsche genomkoordinaten), regel ich am montag. und dann schaue ich nochmal im detail worans hängt.

hab schon gehirnt: miRNAs haben vermutlich komplett bescheidene accessibilities (ED values) im genomischen kontext, weil die ja aus komplementären precursern geschnitten werden. daher würde ich erwarten dass deren interactions falsch vorhergesagt werden..

aber wie gesagt, muss ich mir nochmal im detail anschauen..

grüße, Martin