Buttonwood / Bioinformatics

Useful scripts for NGS analysis
MIT License
0 stars 3 forks source link

Gene Finding #5

Open Buttonwood opened 10 years ago

Buttonwood commented 10 years ago

Here is also a short introduction for gene finding!

http://www.cs.us.es/~fran/students/julian/gene_finding/gene_finding.html

Buttonwood commented 10 years ago

For bacterium: http://www.dxy.cn/bbs/thread/23979761#23979761

细菌的基因组大概5M。是用454测序的。用454自带的GS De Novo Assembler组装。得到50~200个contigs/genome。还没有fill gap。所以打算先直接用contigs去做annotation。

参考了JGI的做法 http://img.jgi.doe.gov/w/doc/img_er_ann.pdf

http://genomebiology.jgi-psf.org/Content/MGM_FEBR09_PPTS/16.%20Ivanova%20-%20Gene%20finding.ppt

计划挑选一个ab initio的软件GeneMark,一个evidence-based的软件EasyGene,和一个综合软件GenDB/REGANOR GeneMark: http://exon.gatech.edu/GeneMark/ 根据JGI的测试,GeneMark的fauls positive 和 missed genes相对都比较少,但是它倾向于生成短基因。

EasyGene: http://www.cbs.dtu.dk/services/EasyGene/ EasyGene用Blastx来决定evidence-based training sets,HMM architectures比其它的软件要更全面一些。

GenDB/REGANOR: http://sourceforge.net/projects/gendb/ GenDB/REGANOR综合了多个免费的软件(CRITICA + Glimmer + pre-processing),还包括了各种RNAs的prediction。

因为同一个种的细菌在NCBI上有完整的基因组序列。所以我选择了用GeneMark-P* and GeneMark.hmm-P 组合。但是好像没有直接的下载版本。所以就直接用了在线版做。只要把序列文件提交上去就可以了。速度很快,几分钟就好了。不过问题是output文件很大,包括了预测到的所有序列的fastA file, 却全部一起直接显示在网页上,所以IE很容易就死掉。好一点的机器就没问题。但是最后还要手工把结果保存下来很麻烦。

EasyGene可是下载到本地计算机,不过要发信去要。图快,我还是用了web-based。坏处就是每一次的contigs不能超过50条。所以每个基因组还得拆成几个文件分别做。不过都可以所有文件同时做,所以也不用很长时间,每一个十几二十分钟就好了。EasyGene并没有给出序列的fastA file。只是列出了每一个contigs从哪里到哪里是CDS。另外,EasyGene不能预测到RNA。

_CRISPRFinder_ http://crispr.u-psud.fr/Server/

基因岛综述:

http://biopublisher.cn/index.php/gmb/article/html/907/#ref

Buttonwood commented 10 years ago

phagefinder

http://sourceforge.net/projects/phage-finder/files/phage_finder_v2.1/

https://github.com/bioteam/phagefinder

ONLINE PHAST: http://phast.wishartlab.com/index.html

Buttonwood commented 10 years ago

Reviews:

http://www.miningene.com/data/Train/Genome_Gene_Annotation.pdf

A beginner's guide to eukaryotic genome annotation http://www.nature.com/nrg/journal/v13/n5/full/nrg3174.html

Buttonwood commented 10 years ago

Homolog Based

GenBlast

formatdb -i genome.fa -p F

nohup genblast_v138_linux_x86_64 -p genblastg -q seqList.txt -t genome.fa -e 1e-10 -g F -f T -a 0.5 -d 100000 -r 10 -c 0.5 -s 0 -i 15 -x 20 -n 20 -v 2 -h 0 -j 3 -norepair -gff -cdna -pro&
Buttonwood commented 10 years ago

RNA Integration

Integration of mapped RNA-Seq reads into automatic training of eukaryotic gene finding algorithm

http://nar.oxfordjournals.org/content/early/2014/06/30/nar.gku557.long