Open psilentium opened 10 years ago
Splign
mkdir splign_target_index
нужно сделать 2 символических линка тра-та-та к нашей фасте (для сборки хромосом и поиска генов) ln -s .../.../...fa #bat genome fasta ln -s .../.../...fa # horse cds fasta
cd .. splign -mklds mkdir splign_target_index
sort -k1,1 - k2,2 -[filename(blast output)] > outfile #for blast of genes splign -ldsdir -hits [sorted blast results for genes] > outfile.txt
(из файла Саши)
Make blast db for Hydra Make blast db for Nematostella
makeblastdb -in GENOMANAME -dbtype nucl -title TITLENAME -out OUTPUT_DIRandNAME
Bowtie2 index
bowtie2-bulid /storage1/home/s_alisa/Hydra/data/hma_ref_Hydra_RP_1.0_chrUn.fa
Blastn hydra genome to nematostella genome
blastn -db /storage1/home/s_alisa/Hydra/analysis/BLAST_db_nematostella/Nvec_blastdb -evalue 0.00001 -word_size 11 -gapopen 0 -gapextend 2 -reward 1 -penalty -2 -outfmt 6 -perc_identity 80 -num_threads 2 -query /storage1/home/s_alisa/Hydra/data/hma_ref_Hydra_RP_1.0_chrUn.fa -out blastn2_out.txt
"Чтобы хромосомы собирать сравнивать как там идут скеффолды и запускать хромосомер." https://github.com/DobzhanskyCenter/Chromosomer
Blasn Nematostella genes to Hydra genome
blastn -db /storage1/home/s_alisa/Hydra/analysis/BLAST_db_hydra/Hydra_db -evalue 0.00001 -word_size 11 -gapopen 0 -gapextend 2 -reward 1 -penalty -2 -outfmt 6 -perc_identity 80 -num_threads 2 -query /storage1/home/s_alisa/Hydra/data/Nematostella_cdna.fa -out blastn2_out_genes.txt
Найти в геноме гидры гены нематостеллы.
Бласны успелись прогнаться на майских. Надеюсь получилось то, что надо.
Поискать гены de novo +mRNA (если сделаем все, что нужно было до этого), переводить риды в bed и смотреть как пересекаются
после splign написать скрипт, который проверит, сколько корректных генов со стартом и стопом, у тех которых нет - искать ближайшие. Проверить 3 рамки считывания (т.к. в сплайне указывалось направление)
Поиск генов de novo
1) Augustus
http://bioinf.uni-greifswald.de/augustus/binaries/README.autoAug
You can just input a cDNA sequence file in FASTA format, and let PASA extract a training set of genes. You need to install PASA for this separately.
autoAug.pl -g genome.fa --species=yourSpecies -c cdna.fa -v -v --pasa --useexisting
Then follow the output prompts. If your cluster is set as in section 4 you can also use the option --noninteractive.
PASA: Download the Program to Assemble Spliced Alignments from Sourceforge: http://sourceforge.net/projects/pasa You do not need PASA if you already have a training set of genes for your species.
export PASAHOME=/home/.../PASA
2) GlimmerHMM
Скрипт лежит тут /opt/augustus-3.0.2/scripts/
я так и не разобралась, как тренировать augustas, поэтому для начала запустила его с параметрами для дрозофилы: augustus --species=fly ~/Hydra/data/hma_ref_Hydra_RP_1.0_chrUn.fa > abinitio.fly.gff Есть вариант сделать тренировочный gff с помощью CEGMA http://bioinf.uni-greifswald.de/bioinf/wiki/pmwiki.php?n=Augustus.CEGMATraining, и потом запустить Augustus, но и Cegma у меня ничего не получается :( если у кого будет время и желание, буду рада помощи .
А что не получиается и там и там? Cegma последняя 2.5, но на сервере 2.4 стоит, можно попробовать 2.5. поставить.
С cegma непонятно в чем проблема. запускаю cegma --genome genome.fa, вылезает ошибка FATAL ERROR when running genome_map 32512. Люди пишут, что им помогла замена | в названиях фаста-файла http://seqanswers.com/forums/archive/index.php/t-16662.html, я поменяла, но чуда не произошло. Не думаю, что дело в старой версии cegma Про augustus: чтобы тренировать надо ставить зависимости PASA, BLAT и SCIPIO, у меня не получилось разобраться, как это правильно сделать на сервере
Ясно, а может его проще на компе запустить? это ж не самтулз какой-нить.
А что там за августус в top'e подо мной бежит?
upd: понятно, это видимо дрозофила
Я попробовала ещё раз с autoAug.pl PASA гстановилась, скрипт вроде не ругался, но теперь получаю ошибку failed to execute или что-то в этом роде. Потом я решила что то, что нам надо - это gff файл, качнула gff с генами нематостеллы и запустила situation1
You already have a set of training genes (e.g. constructed from ESTs using PASA). The way you run the pipeline depends on whether you want to use a compute cluster to run the prediction jobs in parallel or whether you want to run it on a single PC. The easiest but slower way is to run everything sequentially in one command, e.g.
autoAug.pl -g genome.fa -t traingenes.gff --species=yourSpecies --cdna=cdna.fa -v --useexisting
А cegma разве не на protein set тренируется? Ща сделала фасты с исправлеными именами, по форме
contig1 contig2
(лежат в ~/Hydra/analysis/augustus2) И сегма тоже не попёрла.
Ну вот и тут фейл на самом инетерсном месте Could not write /opt/augustus-3.0.2/config/species/yourSpecies/yourSpecies_parameters.cfg. at /opt/augustus-3.0.2/config/../scripts/new_species.pl line 114. Program aborted failed to execute: И всё. По-видимому я не могу не обладая правами админа сделать папку "yourSpecies" или что-нить в этом роде.
Ну в общем, не знаю что дальше делать. Тренироваться на дрозофиле или попробовать запустить эту муть у себя на ноуте.
А с blastn и splign никто не заканчивал задачу? М.б. кто-нибудь доведет эту часть до результата/отчета, а я с augustus'ом поупражняюсь?
Локально augustus для fly у меня запустился без проблем, что-то пишет себе в gff. Попробую натренировать на нематослелле и запустить для нее. А почему в качестве варианта по умолчанию мы используем дрозофилу, неужели в этом списке нет никого, кто был бы ближе к гидре? Тогда можно было бы обойтись без тренировок.
на сервере augustus уже 4 дня работает с дрозофилой и тоже что-то пишет. дрозофила была выбрана из-за отсутствия выбора. ибо все (и губка, которая там есть, и черви) будут одинаково далеки от гидры http://www.pnas.org/content/101/17/6536/F4.expansion.html