hydrachallenge / main

Project materials, data and codes
0 stars 1 forks source link

Genes #7

Open psilentium opened 10 years ago

psilentium commented 10 years ago
  1. Make blast db for Hydra
  2. Make blast db for Nematostella
  3. Bowtie2 index
  4. Blastn hydra genome to nematostella genome
  5. Blasn Nematostella genes to Hydra genome
  6. splign
psilentium commented 10 years ago

Splign

mkdir splign_target_index

нужно сделать 2 символических линка тра-та-та к нашей фасте (для сборки хромосом и поиска генов) ln -s .../.../...fa #bat genome fasta ln -s .../.../...fa # horse cds fasta

cd .. splign -mklds mkdir splign_target_index

sort -k1,1 - k2,2 -[filename(blast output)] > outfile #for blast of genes splign -ldsdir -hits [sorted blast results for genes] > outfile.txt

(из файла Саши)

avershinina commented 10 years ago

Make blast db for Hydra Make blast db for Nematostella

makeblastdb -in GENOMANAME -dbtype nucl -title TITLENAME -out OUTPUT_DIRandNAME

Bowtie2 index

bowtie2-bulid /storage1/home/s_alisa/Hydra/data/hma_ref_Hydra_RP_1.0_chrUn.fa

Blastn hydra genome to nematostella genome

blastn -db /storage1/home/s_alisa/Hydra/analysis/BLAST_db_nematostella/Nvec_blastdb -evalue 0.00001 -word_size 11 -gapopen 0 -gapextend 2 -reward 1 -penalty -2 -outfmt 6 -perc_identity 80 -num_threads 2 -query /storage1/home/s_alisa/Hydra/data/hma_ref_Hydra_RP_1.0_chrUn.fa -out blastn2_out.txt

"Чтобы хромосомы собирать сравнивать как там идут скеффолды и запускать хромосомер." https://github.com/DobzhanskyCenter/Chromosomer

Blasn Nematostella genes to Hydra genome

blastn -db /storage1/home/s_alisa/Hydra/analysis/BLAST_db_hydra/Hydra_db -evalue 0.00001 -word_size 11 -gapopen 0 -gapextend 2 -reward 1 -penalty -2 -outfmt 6 -perc_identity 80 -num_threads 2 -query /storage1/home/s_alisa/Hydra/data/Nematostella_cdna.fa -out blastn2_out_genes.txt

Найти в геноме гидры гены нематостеллы.

avershinina commented 10 years ago

Бласны успелись прогнаться на майских. Надеюсь получилось то, что надо.

psilentium commented 10 years ago

Поискать гены de novo +mRNA (если сделаем все, что нужно было до этого), переводить риды в bed и смотреть как пересекаются

psilentium commented 10 years ago

после splign написать скрипт, который проверит, сколько корректных генов со стартом и стопом, у тех которых нет - искать ближайшие. Проверить 3 рамки считывания (т.к. в сплайне указывалось направление)

avershinina commented 10 years ago

Поиск генов de novo

1) Augustus

http://bioinf.uni-greifswald.de/augustus/binaries/README.autoAug

You can just input a cDNA sequence file in FASTA format, and let PASA extract a training set of genes. You need to install PASA for this separately.

autoAug.pl -g genome.fa --species=yourSpecies -c cdna.fa -v -v --pasa --useexisting

Then follow the output prompts. If your cluster is set as in section 4 you can also use the option --noninteractive.

PASA: Download the Program to Assemble Spliced Alignments from Sourceforge: http://sourceforge.net/projects/pasa You do not need PASA if you already have a training set of genes for your species.

export PASAHOME=/home/.../PASA

2) GlimmerHMM

avershinina commented 10 years ago

Скрипт лежит тут /opt/augustus-3.0.2/scripts/

psilentium commented 10 years ago

я так и не разобралась, как тренировать augustas, поэтому для начала запустила его с параметрами для дрозофилы: augustus --species=fly ~/Hydra/data/hma_ref_Hydra_RP_1.0_chrUn.fa > abinitio.fly.gff Есть вариант сделать тренировочный gff с помощью CEGMA http://bioinf.uni-greifswald.de/bioinf/wiki/pmwiki.php?n=Augustus.CEGMATraining, и потом запустить Augustus, но и Cegma у меня ничего не получается :( если у кого будет время и желание, буду рада помощи .

avershinina commented 10 years ago

А что не получиается и там и там? Cegma последняя 2.5, но на сервере 2.4 стоит, можно попробовать 2.5. поставить.

psilentium commented 10 years ago

С cegma непонятно в чем проблема. запускаю cegma --genome genome.fa, вылезает ошибка FATAL ERROR when running genome_map 32512. Люди пишут, что им помогла замена | в названиях фаста-файла http://seqanswers.com/forums/archive/index.php/t-16662.html, я поменяла, но чуда не произошло. Не думаю, что дело в старой версии cegma Про augustus: чтобы тренировать надо ставить зависимости PASA, BLAT и SCIPIO, у меня не получилось разобраться, как это правильно сделать на сервере

avershinina commented 10 years ago

Ясно, а может его проще на компе запустить? это ж не самтулз какой-нить.

avershinina commented 10 years ago

А что там за августус в top'e подо мной бежит?

upd: понятно, это видимо дрозофила

avershinina commented 10 years ago

Я попробовала ещё раз с autoAug.pl PASA гстановилась, скрипт вроде не ругался, но теперь получаю ошибку failed to execute или что-то в этом роде. Потом я решила что то, что нам надо - это gff файл, качнула gff с генами нематостеллы и запустила situation1

You already have a set of training genes (e.g. constructed from ESTs using PASA). The way you run the pipeline depends on whether you want to use a compute cluster to run the prediction jobs in parallel or whether you want to run it on a single PC. The easiest but slower way is to run everything sequentially in one command, e.g.

autoAug.pl -g genome.fa -t traingenes.gff --species=yourSpecies --cdna=cdna.fa -v --useexisting

А cegma разве не на protein set тренируется? Ща сделала фасты с исправлеными именами, по форме

contig1 contig2

(лежат в ~/Hydra/analysis/augustus2) И сегма тоже не попёрла.

avershinina commented 10 years ago

Ну вот и тут фейл на самом инетерсном месте Could not write /opt/augustus-3.0.2/config/species/yourSpecies/yourSpecies_parameters.cfg. at /opt/augustus-3.0.2/config/../scripts/new_species.pl line 114. Program aborted failed to execute: И всё. По-видимому я не могу не обладая правами админа сделать папку "yourSpecies" или что-нить в этом роде.

Ну в общем, не знаю что дальше делать. Тренироваться на дрозофиле или попробовать запустить эту муть у себя на ноуте.

agbragin commented 10 years ago

А с blastn и splign никто не заканчивал задачу? М.б. кто-нибудь доведет эту часть до результата/отчета, а я с augustus'ом поупражняюсь?

agbragin commented 10 years ago

Локально augustus для fly у меня запустился без проблем, что-то пишет себе в gff. Попробую натренировать на нематослелле и запустить для нее. А почему в качестве варианта по умолчанию мы используем дрозофилу, неужели в этом списке нет никого, кто был бы ближе к гидре? Тогда можно было бы обойтись без тренировок.

psilentium commented 10 years ago

на сервере augustus уже 4 дня работает с дрозофилой и тоже что-то пишет. дрозофила была выбрана из-за отсутствия выбора. ибо все (и губка, которая там есть, и черви) будут одинаково далеки от гидры http://www.pnas.org/content/101/17/6536/F4.expansion.html

agbragin commented 10 years ago

Если кто-то решится запустить augustus еще раз, обратите внимание на то, что его можно существенно ускорить установив параметр --sample=0 (см. readme).