NBISweden / AGAT

Another Gtf/Gff Analysis Toolkit
GNU General Public License v3.0
465 stars 56 forks source link

Extract 2kb upstream of tss of list of genes #328

Closed zinchosyang closed 1 year ago

zinchosyang commented 1 year ago

Hey @Juke34 This is for reporting a problem I am facing while using agat_sp_extract_sequences.pl for 2kb upstream promoter extraction. So I used "perl agat_sp_extract_sequences.pl -g Ab.gff -f Ab.1.fa -o Ab_2000up.out --upstream 2000" script.

Accordingly it should give me 2kb upstream of my specified gene sequences. But instead it is giving me 2KB UPSTREAM SEQUENCES ALONG WITH WHOLE CODING SEQUENCES OF GENES.

eg., of only one gene sequence are here:

Ab4.1MV00 seq_id=Ab4.1MV00 type=gene 5'extra=2000nt CATCTGACTATGTATGTATTTATTTGAAGTATCATACTTCTATGCATCTGGGTTTTATGACCATGATGTCACTTGTATGATTCTCGTGCCACCATGGAGTGAAATATGATATATAGTATATCGTAAACACCAAAATTATGTATGTTAGTCTCACTTAGAAAGGTCATTTTTTATCCTATAAAACTATGATTTTTGGTTGAACCTTATGCATGTTATATGTAGATATTGAGCGTGAATTACTTCTCCTATGTTTGTGCATGTGCGTTTCTATAAGAATGATCTTGGATCCTATTTCATTTTGTGGTTGGTTGCACGAGAGTTCGTAGACCTATATGTAGACCTAGGGTTTACAAAAATAGGGGCATTCTCCTAATGGGTCCACATGTATGTGTATAGATTATGCGTAGAGAATAACTATACATCCAGACCCACGTGAAAAATGAAATTGGACTTAAACTATAAACATGATTCTAGATCCCATAAATGCATGCGAAGTCATAATCGTATGGATTTCCATCTTTCGACCATAGCAATAGAGCCACTTGCTGAACTTATCGTATTATTATTAAATATTTTTTAGATAAAACTAAACGAGGGGCGCAAAATGGAATCATTTTAATGGAATTTATAAAGTAGAGGTGAGAAAAAAAAAAATTAATGAGAGAATTTTGTTTGTTTCTAATTTGAATATAAAAATAAATAAAATCCACTTTTAATAAATTAAAAAAAAAACATGTTAAAATATAATTAAAATATAATTTTGTCATTTATTTTTAAAAATCAATTTAATAGACATTTACTTTTATCACCAAATTTCTTAAGCTTGGTTATCTAGTTTCTACCGTATTTATTTTAAAAGAAAATAAGTCAATTTTTTAAAACTAAAAAATCGTTTTTGAAACTTATTTTTATTTTTTAATTTGACTAAAAAAATCATTATTAAATGGGAATTAATTTTTTAACATACTATTCTATTATTTAATAGTCTCAATATTTTGTCATAACTATTTATTTTATTTCAATAACACTGAAATCAATAAATATAGTCTAGTCACATTATTTATTAATTAAATAGTTGACCAATAAGTTTTTATTTTTAAATTATTATTGCAAATGTTAATCTCGATGTCTTAAATAAGTTAGATTTCTAAGATGAACACGGCCCTCCACAATGATATGATATTGTCCACTTTGAACACCTCTCCTCGAACAAAGTACGCTTCCCCTTAATCGAGTCTTCACTCCTTTGGAGTCTTAGATTCCTTACCCATGATCATTCCCTAAATTAGCCGATGTGGGACTTTCATCATCCAACACCTCCCCTCGAACAAAGTACGTCTCCCCTTAATCGAGGCTCGACTCCTTTGGAGTCTTAGTCATTTTTTACTGCCTTCGAGGAGGCTTGACTCCTTTTCTTTTGGAGTTCTTTGTTCGACATTTGAGGATTTACCAATCTATTGGCACGACTAATTTTAGGGCATGGCTCTGATACCATGTTAGATGAACACGACTCTCCACAATGATATGATATTGTCCACTTCGAGTATAAGCTCTCATAGTTTTGCTTTTGGCTTCTTAAGAGGCCTCGTTCGAATGGAGATAGTATTGGTTGTTTATTTATTTGAGAGAGAATTTATGGATTATATAATTATTTATTTTTTTTAGTTTATATATTTTTCGCATCCATAATTCTTTGGACTTAAAAAATTTGGATACAAAATTACGTTTGTGTCCCCACTCATAAAATATAATTTTACCTTTATACCCTTTTTTATAAAAAAAAATAATATGTTTGGATCTGATGAATGTTATGACAACACGAAGAAAGTTGGATATAAATTTTTTGTTTGTGTTCGCTCATTAAATATAATATAAATAATATAATATAAATTTTTTATAACCTAATTTACATATTCAAATAATTCTGTTACTCTAAATTAATATATTTATTTATTTATTTATTTATTTATTATTATTATTATTATTTACAAAACCCCAAGTT(2kb uptream ends here)

(transcript seq starts from here)CTTCTTCCCCTTCAACAATGGACAATAGTTGACCAATTTCAACCGCTTCAGATTCATAGCTTCCATCGTTCTTCCCTTCAACCTTCGATCCCCATTTCCATAAATCCGCTTTAACTTTTGAATCCAAGATTCAGCTAAATCAGCTGTGTTCGACCAATCTTCCATCTGTGATTTTCTTATTTTCGAGTTTCTAATCTTCTATTTCAGTCAGGGTATCGTCGATTTGATCCAGAATGGGCGTGTGCTCAAGCAAAGGCAAATACAAACCGCAGTATGAAAATATGTAGCCCCAGAAAAAGACAAAAAAAAAAAAAAAAAAAAAAAAAAAA.

Ab4.1MV00 seq_id=Ab4.1MV00 type=gene 5'extra=2000nt CATCTGACTATGTATGTATTTATTTGAAGTATCATACTTCTATGCATCTGGGTTTTATGACCATGATGTCACTTGTATGATTCTCGTGCCACCATGGAGTGAAATATGATATATAGTATATCGTAAACACCAAAATTATGTATGTTAGTCTCACTTAGAAAGGTCATTTTTTATCCTATAAAACTATGATTTTTGGTTGAACCTTATGCATGTTATATGTAGATATTGAGCGTGAATTACTTCTCCTATGTTTGTGCATGTGCGTTTCTATAAGAATGATCTTGGATCCTATTTCATTTTGTGGTTGGTTGCACGAGAGTTCGTAGACCTATATGTAGACCTAGGGTTTACAAAAATAGGGGCATTCTCCTAATGGGTCCACATGTATGTGTATAGATTATGCGTAGAGAATAACTATACATCCAGACCCACGTGAAAAATGAAATTGGACTTAAACTATAAACATGATTCTAGATCCCATAAATGCATGCGAAGTCATAATCGTATGGATTTCCATCTTTCGACCATAGCAATAGAGCCACTTGCTGAACTTATCGTATTATTATTAAATATTTTTTAGATAAAACTAAACGAGGGGCGCAAAATGGAATCATTTTAATGGAATTTATAAAGTAGAGGTGAGAAAAAAAAAAATTAATGAGAGAATTTTGTTTGTTTCTAATTTGAATATAAAAATAAATAAAATCCACTTTTAATAAATTAAAAAAAAAACATGTTAAAATATAATTAAAATATAATTTTGTCATTTATTTTTAAAAATCAATTTAATAGACATTTACTTTTATCACCAAATTTCTTAAGCTTGGTTATCTAGTTTCTACCGTATTTATTTTAAAAGAAAATAAGTCAATTTTTTAAAACTAAAAAATCGTTTTTGAAACTTATTTTTATTTTTTAATTTGACTAAAAAAATCATTATTAAATGGGAATTAATTTTTTAACATACTATTCTATTATTTAATAGTCTCAATATTTTGTCATAACTATTTATTTTATTTCAATAACACTGAAATCAATAAATATAGTCTAGTCACATTATTTATTAATTAAATAGTTGACCAATAAGTTTTTATTTTTAAATTATTATTGCAAATGTTAATCTCGATGTCTTAAATAAGTTAGATTTCTAAGATGAACACGGCCCTCCACAATGATATGATATTGTCCACTTTGAACACCTCTCCTCGAACAAAGTACGCTTCCCCTTAATCGAGTCTTCACTCCTTTGGAGTCTTAGATTCCTTACCCATGATCATTCCCTAAATTAGCCGATGTGGGACTTTCATCATCCAACACCTCCCCTCGAACAAAGTACGTCTCCCCTTAATCGAGGCTCGACTCCTTTGGAGTCTTAGTCATTTTTTACTGCCTTCGAGGAGGCTTGACTCCTTTTCTTTTGGAGTTCTTTGTTCGACATTTGAGGATTTACCAATCTATTGGCACGACTAATTTTAGGGCATGGCTCTGATACCATGTTAGATGAACACGACTCTCCACAATGATATGATATTGTCCACTTCGAGTATAAGCTCTCATAGTTTTGCTTTTGGCTTCTTAAGAGGCCTCGTTCGAATGGAGATAGTATTGGTTGTTTATTTATTTGAGAGAGAATTTATGGATTATATAATTATTTATTTTTTTTAGTTTATATATTTTTCGCATCCATAATTCTTTGGACTTAAAAAATTTGGATACAAAATTACGTTTGTGTCCCCACTCATAAAATATAATTTTACCTTTATACCCTTTTTTATAAAAAAAAATAATATGTTTGGATCTGATGAATGTTATGACAACACGAAGAAAGTTGGATATAAATTTTTTGTTTGTGTTCGCTCATTAAATATAATATAAATAATATAATATAAATTTTTTATAACCTAATTTACATATTCAAATAATTCTGTTACTCTAAATTAATATATTTATTTATTTATTTATTTATTTATTATTATTATTATTATTTACAAAACCCCAAGTTCTTCTTCCCCTTCAACAATGGACAATAGTTGACCAATTTCAACCGCTTCAGATTCATAGCTTCCATCGTTCTTCCCTTCAACCTTCGATCCCCATTTCCATAAATCCGCTTTAACTTTTGAATCCAAGATTCAGCTAAATCAGCTGTGTTCGACCAATCTTCCATCTGTGATTTTCTTATTTTCGAGTTTCTAATCTTCTATTTCAGTCAGGGTATCGTCGATTTGATCCAGAATGGGCGTGTGCTCAAGCAAAGGCAAATACAAACCGCAGTATGAAAATATGTAGCCCCAGAAAAAGACAAAAAAAAAAAAAAAAAAAAAAAAAAAA.

My request and issue is: how to get just upstream part(without coding sequences) like this:

CATCTGACTATGTATGTATTTATTTGAAGTATCATACTTCTATGCATCTGGGTTTTATGACCATGATGTCACTTGTATGATTCTCGTGCCACCATGGAGTGAAATATGATATATAGTATATCGTAAACACCAAAATTATGTATGTTAGTCTCACTTAGAAAGGTCATTTTTTATCCTATAAAACTATGATTTTTGGTTGAACCTTATGCATGTTATATGTAGATATTGAGCGTGAATTACTTCTCCTATGTTTGTGCATGTGCGTTTCTATAAGAATGATCTTGGATCCTATTTCATTTTGTGGTTGGTTGCACGAGAGTTCGTAGACCTATATGTAGACCTAGGGTTTACAAAAATAGGGGCATTCTCCTAATGGGTCCACATGTATGTGTATAGATTATGCGTAGAGAATAACTATACATCCAGACCCACGTGAAAAATGAAATTGGACTTAAACTATAAACATGATTCTAGATCCCATAAATGCATGCGAAGTCATAATCGTATGGATTTCCATCTTTCGACCATAGCAATAGAGCCACTTGCTGAACTTATCGTATTATTATTAAATATTTTTTAGATAAAACTAAACGAGGGGCGCAAAATGGAATCATTTTAATGGAATTTATAAAGTAGAGGTGAGAAAAAAAAAAATTAATGAGAGAATTTTGTTTGTTTCTAATTTGAATATAAAAATAAATAAAATCCACTTTTAATAAATTAAAAAAAAAACATGTTAAAATATAATTAAAATATAATTTTGTCATTTATTTTTAAAAATCAATTTAATAGACATTTACTTTTATCACCAAATTTCTTAAGCTTGGTTATCTAGTTTCTACCGTATTTATTTTAAAAGAAAATAAGTCAATTTTTTAAAACTAAAAAATCGTTTTTGAAACTTATTTTTATTTTTTAATTTGACTAAAAAAATCATTATTAAATGGGAATTAATTTTTTAACATACTATTCTATTATTTAATAGTCTCAATATTTTGTCATAACTATTTATTTTATTTCAATAACACTGAAATCAATAAATATAGTCTAGTCACATTATTTATTAATTAAATAGTTGACCAATAAGTTTTTATTTTTAAATTATTATTGCAAATGTTAATCTCGATGTCTTAAATAAGTTAGATTTCTAAGATGAACACGGCCCTCCACAATGATATGATATTGTCCACTTTGAACACCTCTCCTCGAACAAAGTACGCTTCCCCTTAATCGAGTCTTCACTCCTTTGGAGTCTTAGATTCCTTACCCATGATCATTCCCTAAATTAGCCGATGTGGGACTTTCATCATCCAACACCTCCCCTCGAACAAAGTACGTCTCCCCTTAATCGAGGCTCGACTCCTTTGGAGTCTTAGTCATTTTTTACTGCCTTCGAGGAGGCTTGACTCCTTTTCTTTTGGAGTTCTTTGTTCGACATTTGAGGATTTACCAATCTATTGGCACGACTAATTTTAGGGCATGGCTCTGATACCATGTTAGATGAACACGACTCTCCACAATGATATGATATTGTCCACTTCGAGTATAAGCTCTCATAGTTTTGCTTTTGGCTTCTTAAGAGGCCTCGTTCGAATGGAGATAGTATTGGTTGTTTATTTATTTGAGAGAGAATTTATGGATTATATAATTATTTATTTTTTTTAGTTTATATATTTTTCGCATCCATAATTCTTTGGACTTAAAAAATTTGGATACAAAATTACGTTTGTGTCCCCACTCATAAAATATAATTTTACCTTTATACCCTTTTTTATAAAAAAAAATAATATGTTTGGATCTGATGAATGTTATGACAACACGAAGAAAGTTGGATATAAATTTTTTGTTTGTGTTCGCTCATTAAATATAATATAAATAATATAATATAAATTTTTTATAACCTAATTTACATATTCAAATAATTCTGTTACTCTAAATTAATATATTTATTTATTTATTTATTTATTTATTATTATTATTATTATTTACAAAACCCCAAGTT.

Thanks in advance!

Juke34 commented 1 year ago

Please refer to this figure: https://agat.readthedocs.io/en/latest/tools/agat_sp_extract_sequences.html

You need to use the “extremity only” --eo parameter if you wish only the upstream region without the CDS sequence.