pcingola / SnpEff

Other
250 stars 80 forks source link

Annotation failing for insertions with symbollic allele #344

Closed Akazhiel closed 10 months ago

Akazhiel commented 3 years ago

Describe the bug Annotation of large insertions derived from structural variants is not performed if a symbollic allele is used like <INS> but it is performed if the sequence is present in the ALT field.

To Reproduce

  1. SnpEff version: 5.0e
  2. SnpEff full command line: snpEff -Xmx16g -v GRCh38.99 /media/jonathan/Jonatan/Nanopore_Illumina_Data/Processing/sniffles/DRR258589_sorted_filtered.vcf > annotated_sniffles.vcf
  3. Output / Error message: Please include a full VCF line output
    
    chr19   56635282    17593   N   TATAATATATATAATATATATTATATTATATTATATATAATATATATTATATATTATATTTATATATAATATATAATATATATTATATTATATATAATATATATTATATATTATAATATATATAATATATATTATATATTATTAGTATAATATATATTATATATTATATTATA   .   PASS    PRECISE;SVMETHOD=Snifflesv1.0.12;CHR2=chr19;END=56635281;STD_quant_start=2.32379;STD_quant_stop=5.62139;Kurtosis_quant_start=0.446497;Kurtosis_quant_stop=-0.597284;SVTYPE=INS;SUPTYPE=AL;SVLEN=175;STRANDS=+-;STRANDS2=11,6,11,6;RE=17;REF_strand=17,12;Strandbias_pval=0.761313;AF=0.369565;ANN=TATAATATATATAATATATATTATATTATATTATATATAATATATATTATATATTATATTTATATATAATATATAATATATATTATATTATATATAATATATATTATATATTATAATATATATAATATATATTATATATTATTAGTATAATATATATTATATATTATATTATA|intron_variant|MODIFIER|ZIM2-AS1|ENSG00000269793|transcript|ENST00000650950.1|pseudogene|2/5|n.202-31995delAinsTATAATATATATAATATATATTATATTATATTATATATAATATATATTATATATTATATTTATATATAATATATAATATATATTATATTATATATAATATATATTATATATTATAATATATATAATATATATTATATATTATTAGTATAATATATATTATATATTATATTATA||||||,TATAATATATATAATATATATTATATTATATTATATATAATATATATTATATATTATATTTATATATAATATATAATATATATTATATTATATATAATATATATTATATATTATAATATATATAATATATATTATATATTATTAGTATAATATATATTATATATTATATTATA|intron_variant|MODIFIER|ZIM2-AS1|ENSG00000269793|transcript|ENST00000650950.1|pseudogene|2/5|n.202-31995delCinsTATAATATATATAATATATATTATATTATATTATATATAATATATATTATATATTATATTTATATATAATATATAATATATATTATATTATATATAATATATATTATATATTATAATATATATAATATATATTATATATTATTAGTATAATATATATTATATATTATATTATA||||||,TATAATATATATAATATATATTATATTATATTATATATAATATATATTATATATTATATTTATATATAATATATAATATATATTATATTATATATAATATATATTATATATTATAATATATATAATATATATTATATATTATTAGTATAATATATATTATATATTATATTATA|intron_variant|MODIFIER|ZIM2-AS1|ENSG00000269793|transcript|ENST00000650950.1|pseudogene|2/5|n.202-31995delGinsTATAATATATATAATATATATTATATTATATTATATATAATATATATTATATATTATATTTATATATAATATATAATATATATTATATTATATATAATATATATTATATATTATAATATATATAATATATATTATATATTATTAGTATAATATATATTATATATTATATTATA||||||,TATAATATATATAATATATATTATATTATATTATATATAATATATATTATATATTATATTTATATATAATATATAATATATATTATATTATATATAATATATATTATATATTATAATATATATAATATATATTATATATTATTAGTATAATATATATTATATATTATATTATA|intron_variant|MODIFIER|ZIM2-AS1|ENSG00000269793|transcript|ENST00000650950.1|pseudogene|2/5|n.202-31996_202-31995insTATAATATATATAATATATATTATATTATATTATATATAATATATATTATATATTATATTTATATATAATATATAATATATATTATATTATATATAATATATATTATATATTATAATATATATAATATATATTATATATTATTAGTATAATATATATTATATATTATATTATA|||||| GT:DR:DV    0/1:29:17

chr19 15803557 36:sniffles_combined_calls_filtered|cuteSV.INS.27:cutesv_combined_calls_filtered|svim.INS.33:svim_combined_calls N . PASS PRECISE;SVMETHOD=Snifflesv1.0.12;CHR2=chr19;END=15803557;STD_quant_start=0.0;STD_quant_stop=0.0;Kurtosis_quant_start=nan;Kurtosis_quant_stop=nan;SVTYPE=INS;SUPTYPE=AL;SVLEN=65;STRANDS=+-;STRANDS2=1,0,1,0;RE=1;REF_strand=1,0;Strandbias_pval=1.0;AF=0.5;SVINSSEQ=AGGGGAGAGGAAGGGGAGGGAAGGAGAAAGGGAAGGGAGGGAAGGGAGGAAGGAGAAGCGGGGAG;set=tmp_sniffles_tumor;CIPOS=0,0;CILEN=0,0;RNAMES=NULL;SUPPORT=1;STD_SPAN=.;STD_POS=.;VARID=cuteSV.INS.27:cutesv_combined_calls_filtered|svim.INS.33:svim_combined_calls;set=sniffles_combined_calls_filtered-cutesv_combined_calls_filtered-svim_combined_calls GT:DR:DV:PL:GQ 0/1:1:1:.:. ./.:.:.:.:. 1/1:0:1:12,5,2:3 ./.:.:.:.:. ./.:.:.:.:. ./.:.:.:.:. ./.:.:.:.:. ./.:.:.:.:.



**Expected behavior**

Expected to annotate insertions that use a symbollic allele in the ALT field.

**Data**
Sample data. No need to add the full genomic dataset, but a few input lines enough to reproduce the conditions.
WARNING: Always attach the data files such as VCF 
[combined_calls.vcf.gz](https://github.com/pcingola/SnpEff/files/7059574/combined_calls.vcf.gz)
Akazhiel commented 2 years ago

Hello! Any update on this issue?

anjalijain22 commented 1 year ago

Hello, I'm also experiencing the same issue. Is there any update on this?