Only a few genes are indexed in Genome indexing steps

Hello Alex/everyone,

I am trying to analyse bacteria RNA-seq data with star.

I got the annotation in gtf format from Refseq database and I run the genomeGenerate mode. At first everything seems smooth. When I got the gene counts, problems came. The gene counts file only consists of 81 genes, which is definitely unresonnable. RNA-seq data from bacterium must far more than 81 genes.

Then I checked the procedures carefully, I found that only 81 genes were indexed in the output indexs files.
The 81 genes correspond exactly to the third column of the gtf file which is annotated as "transcripts". However, other genes are all ignored. I run the code: cut LMO-1.gtf -f 3 | grep "transcript" | wc -l and the output is 81. I doubt that maybe the gtf file is inaccuate, but the annotation from Refseq database is as accurate as it can be for my specie. Maybe I should revise the gft file mannually, right?

Looking forward to your advice. It would really help me a lot!

Thanks!

Yuxi

here is my code: STAR --runMode genomeGenerate \ --runThreadN 20 \ --genomeFastaFiles LMO-1.fna \ --sjdbGTFfile LMO-1.gtf \ --genomeDir LMO-1_db \ --sjdbOverhang 149 \ --genomeSAindexNbases 9

View one of the output Output: 81 unassigned_transcript_14 unassigned_transcript_15 unassigned_transcript_53 unassigned_transcript_57 unassigned_transcript_62 unassigned_transcript_92 unassigned_transcript_93 unassigned_transcript_94 unassigned_transcript_95 unassigned_transcript_96 unassigned_transcript_97 unassigned_transcript_143 unassigned_transcript_153 unassigned_transcript_154 unassigned_transcript_189 unassigned_transcript_221 unassigned_transcript_232 unassigned_transcript_233 unassigned_transcript_234 unassigned_transcript_247 unassigned_transcript_270 unassigned_transcript_271 unassigned_transcript_283 unassigned_transcript_284 unassigned_transcript_285 unassigned_transcript_286 unassigned_transcript_287 unassigned_transcript_288 unassigned_transcript_289 unassigned_transcript_290 unassigned_transcript_374 unassigned_transcript_394 unassigned_transcript_468 unassigned_transcript_487 unassigned_transcript_531 unassigned_transcript_537 unassigned_transcript_767 unassigned_transcript_805 unassigned_transcript_983 unassigned_transcript_1035 unassigned_transcript_1036 unassigned_transcript_1037 unassigned_transcript_1038 unassigned_transcript_1039 unassigned_transcript_1040 unassigned_transcript_1099 unassigned_transcript_1150 unassigned_transcript_1201 unassigned_transcript_1202 unassigned_transcript_1203 unassigned_transcript_1204 unassigned_transcript_1205 unassigned_transcript_1206 unassigned_transcript_1226 unassigned_transcript_1309 unassigned_transcript_1418 unassigned_transcript_1433 unassigned_transcript_1528 unassigned_transcript_1586 unassigned_transcript_1617 unassigned_transcript_1618 unassigned_transcript_1694 unassigned_transcript_1705 unassigned_transcript_1732 unassigned_transcript_1793 unassigned_transcript_1794 unassigned_transcript_1840 unassigned_transcript_1845 unassigned_transcript_1973 unassigned_transcript_2000 unassigned_transcript_2050 unassigned_transcript_2051 unassigned_transcript_2052 unassigned_transcript_2053 unassigned_transcript_2054 unassigned_transcript_2055 unassigned_transcript_2204 unassigned_transcript_2333 unassigned_transcript_2368 unassigned_transcript_2371 unassigned_transcript_2420 indexs files: cat transcriptInfo.tab 18927 19001 19001 2 1 0 0 19178 19254 19001 1 1 1 1 58277 58354 19254 2 1 2 2 63486 63557 58354 1 1 3 3 68250 68337 63557 1 1 4 4 94012 95492 68337 1 1 5 5 95605 95677 95492 1 1 6 6 95822 98747 95677 1 1 7 7 98815 98936 98747 1 1 8 8 99131 99202 98936 1 1 9 9 99331 99452 99202 1 1 10 10 132848 132953 99452 1 2 11 11 141534 141606 132953 1 1 13 12 141628 141702 141606 1 1 14 13 179693 180045 141702 2 1 15 14 198901 198983 180045 1 1 16 15 208591 208678 198983 1 1 17 16 208762 208849 208678 1 1 18 17 208933 209020 208849 1 1 19 18 224591 224668 209020 1 1 20 19 243553 243627 224668 1 1 21 20 243818 243892 243627 1 1 22 21 253769 253845 243892 1 1 23 22 253914 253988 253845 1 1 24 23 254003 254074 253988 1 1 25 24 255101 256577 254074 1 1 26 25 256690 256762 256577 1 1 27 26 256907 259834 256762 1 1 28 27 259902 260023 259834 1 1 29 28 260219 260290 260023 1 1 30 29 341518 341595 260290 2 1 31 30 367304 367502 341595 1 2 32 31 430418 430503 367502 2 1 34 32 450863 450933 430503 1 1 35 33 493076 493161 450933 2 1 36 34 498438 498532 493161 1 2 37 35 763237 763309 498532 1 1 39 36 804622 804697 763309 2 1 40 37 985334 985418 804697 2 1 41 38 1047313 1047434 985418 2 1 42 39 1047667 1047738 1047434 2 1 43 40 1047933 1048054 1047738 2 1 44 41 1048122 1051052 1048054 2 1 45 42 1051197 1051269 1051052 2 1 46 43 1051381 1052855 1051269 2 1 47 44 1118271 1118344 1052855 2 1 48 45 1176551 1176624 1118344 1 1 49 46 1247639 1247760 1176624 2 1 50 47 1247994 1248065 1247760 2 1 51 48 1248260 1248381 1248065 2 1 52 49 1248449 1251375 1248381 2 1 53 50 1251520 1251592 1251375 2 1 54 51 1251705 1253180 1251592 2 1 55 52 1281405 1281476 1253180 2 1 56 53 1362815 1362902 1281476 1 1 57 54 1478091 1478162 1362902 2 1 58 55 1494182 1494258 1478162 2 1 59 56 1584375 1584449 1494258 2 1 60 57 1634713 1634784 1584449 1 1 61 58 1671401 1671473 1634784 2 1 62 59 1671553 1671661 1671473 2 2 63 60 1745621 1745739 1671661 1 1 65 61 1755161 1755238 1745739 1 1 66 62 1775810 1775881 1755238 1 1 67 63 1835493 1835807 1775881 1 1 68 64 1835887 1835971 1835807 1 1 69 65 1885290 1885362 1835971 2 1 70 66 1889642 1889716 1885362 1 1 71 67 2019772 2019880 1889716 2 2 72 68 2050283 2050357 2019880 2 1 74 69 2104140 2105615 2050357 1 1 75 70 2105728 2105800 2105615 1 1 76 71 2105944 2108869 2105800 1 1 77 72 2108937 2109058 2108869 1 1 78 73 2109253 2109324 2109058 1 1 79 74 2109453 2109574 2109324 1 1 80 75 2254252 2254323 2109574 1 1 81 76 2385485 2385559 2254323 1 1 82 77 2422249 2422322 2385559 1 1 83 78 2424037 2424110 2422322 1 1 84 79 2472851 2472924 2424110 1 1 85 80

alexdobin / STAR

Only a few genes are indexed in Genome indexing steps #2167