Open avershinina opened 10 years ago
Конвертировал GFF RM и TRF в BED и объединил треки. Так как WindowMasker все еще в процессе, оставляем его за скобками. BED для каждого из треков и объединенный BED повторов находятся здесь:
/storage1/home/s_alisa/Hydra/analysis/repeats/
Отфильтрованные по качеству и повторам файлы вариантов находятся здесь:
/storage1/home/s_alisa/Hydra/analysis/vcf/SRR1032106_qual_filtered_masked.vcf
/storage1/home/s_alisa/Hydra/analysis/vcf/SRR1033637_qual_filtered_masked.vcf
Файлы логов, в которые записано, какое количество вариантов было отфильтровано по качеству и повторам, находятся здесь:
/storage1/home/s_alisa/Hydra/analysis/vcf/SRR1032106.vcf.log
/storage1/home/s_alisa/Hydra/analysis/vcf/SRR1033637.vcf.log
Я поставил snpEff и приготовил все для создания базы данных (см. соответствующий скрипт в репозитории). Для создания базы данных эффектов необходимо положить файл GFF с генами гидры сюда:
/storage1/home/s_alisa/Hydra/tools/snpEff/data/hydra_rp_1.0/genes.gff
И запустить скрипт:
/storage1/home/s_alisa/Hydra/git/scripts/snpeff_database.sh
Возникают WARNINGS из-за транскриптов, но гены и экзоны должны добавляться нормально, это нужно проверить.
Судя по всему, augustus с пресетами для дрозофилы отработал. Я забрал файл:
/storage1/home/s_alisa/Hydra/analysis/augustus/abinitio.fly.gff
и запустил для него построение базы snpEff.
Оба VCF проаннотированы, результаты лежат в папке:
/storage1/home/s_alisa/Hydra/analysis/snpEff_alfred/
Большое количество WARNING связано с тем, что формат gff, который выдает ALFRED, не очень хорошо совместим с VCF. Статистика там более-менее нормальная (не считая того, что html отчеты огромны из-за большого количества контигов).
1) Антон делает gff RM+TRF -> bed
2) SNP отфильтровать:
3) SnpEff Построить базу по результатам augustus (не дожидаясь завершения оного)
4) Аннотация по базе snpeff.