hydrachallenge / main

Project materials, data and codes
0 stars 1 forks source link

На отличненько! #10

Open avershinina opened 10 years ago

avershinina commented 10 years ago

1) Антон делает gff RM+TRF -> bed

2) SNP отфильтровать:

3) SnpEff Построить базу по результатам augustus (не дожидаясь завершения оного)

4) Аннотация по базе snpeff.

agbragin commented 10 years ago

Конвертировал GFF RM и TRF в BED и объединил треки. Так как WindowMasker все еще в процессе, оставляем его за скобками. BED для каждого из треков и объединенный BED повторов находятся здесь:

/storage1/home/s_alisa/Hydra/analysis/repeats/
agbragin commented 10 years ago

Отфильтрованные по качеству и повторам файлы вариантов находятся здесь:

/storage1/home/s_alisa/Hydra/analysis/vcf/SRR1032106_qual_filtered_masked.vcf
/storage1/home/s_alisa/Hydra/analysis/vcf/SRR1033637_qual_filtered_masked.vcf

Файлы логов, в которые записано, какое количество вариантов было отфильтровано по качеству и повторам, находятся здесь:

/storage1/home/s_alisa/Hydra/analysis/vcf/SRR1032106.vcf.log
/storage1/home/s_alisa/Hydra/analysis/vcf/SRR1033637.vcf.log
agbragin commented 10 years ago

Я поставил snpEff и приготовил все для создания базы данных (см. соответствующий скрипт в репозитории). Для создания базы данных эффектов необходимо положить файл GFF с генами гидры сюда:

/storage1/home/s_alisa/Hydra/tools/snpEff/data/hydra_rp_1.0/genes.gff

И запустить скрипт:

/storage1/home/s_alisa/Hydra/git/scripts/snpeff_database.sh

Возникают WARNINGS из-за транскриптов, но гены и экзоны должны добавляться нормально, это нужно проверить.

agbragin commented 10 years ago

Судя по всему, augustus с пресетами для дрозофилы отработал. Я забрал файл:

/storage1/home/s_alisa/Hydra/analysis/augustus/abinitio.fly.gff

и запустил для него построение базы snpEff.

agbragin commented 10 years ago

Оба VCF проаннотированы, результаты лежат в папке:

/storage1/home/s_alisa/Hydra/analysis/snpEff_alfred/

Большое количество WARNING связано с тем, что формат gff, который выдает ALFRED, не очень хорошо совместим с VCF. Статистика там более-менее нормальная (не считая того, что html отчеты огромны из-за большого количества контигов).