Open Buttonwood opened 10 years ago
For bacterium: http://www.dxy.cn/bbs/thread/23979761#23979761
细菌的基因组大概5M。是用454测序的。用454自带的GS De Novo Assembler组装。得到50~200个contigs/genome。还没有fill gap。所以打算先直接用contigs去做annotation。
参考了JGI的做法 http://img.jgi.doe.gov/w/doc/img_er_ann.pdf
http://genomebiology.jgi-psf.org/Content/MGM_FEBR09_PPTS/16.%20Ivanova%20-%20Gene%20finding.ppt
计划挑选一个ab initio的软件GeneMark,一个evidence-based的软件EasyGene,和一个综合软件GenDB/REGANOR GeneMark: http://exon.gatech.edu/GeneMark/ 根据JGI的测试,GeneMark的fauls positive 和 missed genes相对都比较少,但是它倾向于生成短基因。
EasyGene: http://www.cbs.dtu.dk/services/EasyGene/ EasyGene用Blastx来决定evidence-based training sets,HMM architectures比其它的软件要更全面一些。
GenDB/REGANOR: http://sourceforge.net/projects/gendb/ GenDB/REGANOR综合了多个免费的软件(CRITICA + Glimmer + pre-processing),还包括了各种RNAs的prediction。
因为同一个种的细菌在NCBI上有完整的基因组序列。所以我选择了用GeneMark-P* and GeneMark.hmm-P 组合。但是好像没有直接的下载版本。所以就直接用了在线版做。只要把序列文件提交上去就可以了。速度很快,几分钟就好了。不过问题是output文件很大,包括了预测到的所有序列的fastA file, 却全部一起直接显示在网页上,所以IE很容易就死掉。好一点的机器就没问题。但是最后还要手工把结果保存下来很麻烦。
EasyGene可是下载到本地计算机,不过要发信去要。图快,我还是用了web-based。坏处就是每一次的contigs不能超过50条。所以每个基因组还得拆成几个文件分别做。不过都可以所有文件同时做,所以也不用很长时间,每一个十几二十分钟就好了。EasyGene并没有给出序列的fastA file。只是列出了每一个contigs从哪里到哪里是CDS。另外,EasyGene不能预测到RNA。
_CRISPRFinder_ http://crispr.u-psud.fr/Server/
基因岛综述:
Reviews:
http://www.miningene.com/data/Train/Genome_Gene_Annotation.pdf
A beginner's guide to eukaryotic genome annotation http://www.nature.com/nrg/journal/v13/n5/full/nrg3174.html
formatdb -i genome.fa -p F
nohup genblast_v138_linux_x86_64 -p genblastg -q seqList.txt -t genome.fa -e 1e-10 -g F -f T -a 0.5 -d 100000 -r 10 -c 0.5 -s 0 -i 15 -x 20 -n 20 -v 2 -h 0 -j 3 -norepair -gff -cdna -pro&
Integration of mapped RNA-Seq reads into automatic training of eukaryotic gene finding algorithm
http://nar.oxfordjournals.org/content/early/2014/06/30/nar.gku557.long
Here is also a short introduction for gene finding!
http://www.cs.us.es/~fran/students/julian/gene_finding/gene_finding.html