Closed jiangjasson closed 3 months ago
To add entries to the GTF, you need at least gene/transcript, and exon information. The lack of gene information causes it to be recognized within the gene ENSG00000277196. Please adjust accordingly, ensuring to use tab separators. Also, the FASTA name should be chrF.
chrF custom gene 1 708 . + . gene_id "mCherry"; gene_name "mCherry"; gene_type "protein_coding";
chrF custom exon 1 708 . + . gene_id "mCherry"; transcript_id "mCherry"; gene_name "mCherry"; gene_type "protein_coding";
>chrF
ATGGTGAGCAAGGGCGAGGAGGATAACATGGCCATCATCAAGGAGTTCATGCGCTTCAAG
GTGCACATGGAGGGCTCCGTGAACGGCCACGAGTTCGAGATCGAGGGCGAGGGCGAGGGC
CGCCCCTACGAGGGCACCCAGACCGCCAAGCTGAAGGTGACCAAGGGTGGCCCCCTGCCC
TTCGCCTGGGACATCCTGTCCCCTCAGTTCATGTACGGCTCCAAGGCCTACGTGAAGCAC
CCCGCCGACATCCCCGACTACTTGAAGCTGTCCTTCCCCGAGGGCTTCAAGTGGGAGCGC
GTGATGAACTTCGAGGACGGCGGCGTGGTGACCGTGACCCAGGACTCCTCCCTGCAGGAC
GGCGAGTTCATCTACAAGGTGAAGCTGCGCGGCACCAACTTCCCCTCCGACGGCCCCGTA
ATGCAGAAGAAGACCATGGGCTGGGAGGCCTCCTCCGAGCGGATGTACCCCGAGGACGGC
GCCCTGAAGGGCGAGATCAAGCAGAGGCTGAAGCTGAAGGACGGCGGCCACTACGACGCT
GAGGTCAAGACCACCTACAAGGCCAAGAAGCCCGTGCAGCTGCCCGGCGCCTACAACGTC
AACATCAAGTTGGACATCACCTCCCACAACGAGGACTACACCATCGTGGAACAGTACGAA
CGCGCCGAGGGCCGCCACTCCACCGGCGGCATGGACGAGCTATATAAG
非常感谢,按照你的步骤,我的荧光基因没有被跳过了,最后也成功生成了表达矩阵,但是我查看了下output/filter_matrix
的features.tsv.gz
(features.tsv.gz)发现有ENSG00000xxxxxx,这是什么原因呢?
(base) dell@dell-Precision-7920-Tower:~/Documents/jiangss/project/H1-Ascl1-mCherry-clone4/H1ASCL1PNEC/output/filter_matrix$ zless -S features.tsv.gz | head ENSG00000238009 MIR1302-2HG ENSG00000290826 ENSG00000290385 ENSG00000291215 ENSG00000293331 ENSG00000241860 ENSG00000241599 ENSG00000292994 ENSG00000235146
而且有12529个
(base) dell@dell-Precision-7920-Tower:~/Documents/jiangss/project/H1-Ascl1-mCherry-clone4/H1ASCL1PNEC/output/filter_matrix$ zgrep "^ENSG00" features.tsv.gz |wc 12529 12529 200464
我对比了下公司给我的表达矩阵的features.tsv.gz
(features.tsv.gz),公司给的是正常的
(base) dell@dell-Precision-7920-Tower:/media/dell/My Passport/H1PNEC$ zless -S features.tsv.gz | head MIR1302-2HG AL627309.1 AL627309.5 AL627309.4 AL732372.1 AC114498.1 LINC01409 LINC01128 AL645608.6 AL390719.3
我看了下公司生成的html报告,公司的Species显示的是Human,而我用的是Homo_sapiens
我不知道是不是因为我用的是最新的fasta和gtf导致的,还是因为mkref
或者rna run
有参数没设置正确,还请麻烦老师帮我看下。
这是我mkref
的命令:
dnbc4tools rna mkref --ingtf /home/dell/Documents/jiangss/reference/GencodeRef/DNBC4_format/gencode.v46.primary_assembly.annotation.filter.mCherry.gtf --fasta /home/dell/Documents/jiangss/reference/GencodeRef/DNBC4_format/GRCh38.primary_assembly.genome.mCherry.fa --threads 90 --species Homo_sapiens --genomeDir GRCh38-gencodev46-mCherry708 1>dnbcrnamkref.log 2>&1
这是rna run
的命令:
dnbc4tools rna run --cDNAfastq1 /mnt/disk1/dataset/H1-ASCL1-Clone4-PNEC/rawdata/cDNA/H1Ascl1clone4_S1_L001_1.fq.gz --cDNAfastq2 /mnt/disk1/dataset/H1-ASCL1-Clone4-PNEC/rawdata/cDNA/H1Ascl1clone4_S1_L001_2.fq.gz --oligofastq1 /mnt/disk1/dataset/H1-ASCL1-Clone4-PNEC/rawdata/oligo/H1Ascl1clone4_S1_L001_1.fq.gz --oligofastq2 /mnt/disk1/dataset/H1-ASCL1-Clone4-PNEC/rawdata/oligo/H1Ascl1clone4_S1_L001_2.fq.gz --genomeDir /home/dell/Documents/jiangss/reference/dnbc4-genome/GRCh38-gencodev46-mCherry708 --name H1ASCL1PNEC --threads 90 1>dncbrnarun.log 2>&1
应该只是gtf版本不一致的问题,可以看下v46版本相比于quick start中推荐使用的v32增加了哪些信息。 dnbc4tools使用的是gene_nametag信息作为feature。可以看到这些ENS大多数为LncRNA。
感谢老师这么晚还回复,确实是gtf版本的问题,换成v32后就没有ENS了
你好,我在构建人的带荧光参考基因组的时候遇到了个问题,我使用的是最新的Gencode的fasta和gtf文件,在run的时候发现添加的一个荧光基因会被跳过,rna run输出的信息如下:
还有另外两个也被跳过了:
这是log目录的文件:20240627.txt
我添加了荧光基因的gtf文件如下:
添加了荧光基因的fasta文件如下:
这个fasta荧光基因这里,我还试过
>chrF FL
,也是会被跳过。请问是我哪里设置出问题了吗?