hydrachallenge / main

Project materials, data and codes
0 stars 1 forks source link

Find tandem repeats with Tandem Repeat Finder #4

Closed agbragin closed 10 years ago

avershinina commented 10 years ago

Started with the following options: trf hma_ref_Hydra_RP_1.0_chrUn.fa 2 7 7 80 10 50 2000 -m -d

trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options] Where: (all weights, penalties, and scores are positive) File = sequences input file Match = matching weight Mismatch = mismatching penalty Delta = indel penalty PM = match probability (whole number) PI = indel probability (whole number) Minscore = minimum alignment score to report MaxPeriod = maximum period size to report [options] = one or more of the following : -m masked sequence file -f flanking sequence -d data file Note the sequence file should be in FASTA format.

agbragin commented 10 years ago

Предлагаю добавить описание того, что получилось, непосредственно в репозиторий в виде текстового файла. Помимо генома с замаскированными повторами там море html-файлов, видимо, каждый из них соответствует контигу, они могут нам пригодиться?)

Существует возможность получить список маскированных TRF регионов в виде bed или GFF?

avershinina commented 10 years ago

Ок, попытаюсь понять, как это сделать. Нужны htmlки или нет - это в зависимости от задачи. Там есть файл dat в к-ром вся инфа о повторах, но пока не понимаю, как он устроен. Там именно последовательности и видимо их координаты. И есть файл summary в к-ром перечисление скаффолдов, данные о том, сколько в них повторов и ссылки на подробности о них.

avershinina commented 10 years ago

A data file. This file is a text file which contains the same information, in the same order, as the summary table file, plus consensus pattern and repeat sequences. This file contains no labeling and is suitable for additional processing, for example with a perl script, outside of the program.

avershinina commented 10 years ago

С помощью TRAP (http://bioinformatics.oxfordjournals.org/content/22/3/361.full) сделала summary по повторам. In general всё сошлось, куча АТ. Лежит тут /storage1/home/s_alisa/Hydra/analysis/trf_out/trap_out/TRAP_file1_TRAP_complete_table.csv