Closed agbragin closed 10 years ago
Предлагаю добавить описание того, что получилось, непосредственно в репозиторий в виде текстового файла. Помимо генома с замаскированными повторами там море html-файлов, видимо, каждый из них соответствует контигу, они могут нам пригодиться?)
Существует возможность получить список маскированных TRF регионов в виде bed или GFF?
Ок, попытаюсь понять, как это сделать. Нужны htmlки или нет - это в зависимости от задачи. Там есть файл dat в к-ром вся инфа о повторах, но пока не понимаю, как он устроен. Там именно последовательности и видимо их координаты. И есть файл summary в к-ром перечисление скаффолдов, данные о том, сколько в них повторов и ссылки на подробности о них.
A data file. This file is a text file which contains the same information, in the same order, as the summary table file, plus consensus pattern and repeat sequences. This file contains no labeling and is suitable for additional processing, for example with a perl script, outside of the program.
С помощью TRAP (http://bioinformatics.oxfordjournals.org/content/22/3/361.full) сделала summary по повторам. In general всё сошлось, куча АТ. Лежит тут /storage1/home/s_alisa/Hydra/analysis/trf_out/trap_out/TRAP_file1_TRAP_complete_table.csv
Started with the following options: trf hma_ref_Hydra_RP_1.0_chrUn.fa 2 7 7 80 10 50 2000 -m -d
trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options] Where: (all weights, penalties, and scores are positive) File = sequences input file Match = matching weight Mismatch = mismatching penalty Delta = indel penalty PM = match probability (whole number) PI = indel probability (whole number) Minscore = minimum alignment score to report MaxPeriod = maximum period size to report [options] = one or more of the following : -m masked sequence file -f flanking sequence -d data file Note the sequence file should be in FASTA format.