zmactep / ig-pipeline

2 stars 0 forks source link

Интерфейс для кластеризации #25

Closed zmactep closed 10 years ago

zmactep commented 10 years ago

Добавился тул ig-simplecluster.

Идея такова:

  1. Имея на входе только fasta файл можно его скластеризовать одним из двух способов, на выходе получается директория с кучей результатов (консенсус, кластеры, дерево кластеризации, файл выравнивания и т.д.)
  2. Имея на входе две такие директории от двух ранов можно построить json-файл статистики, который хотят биологи.

Аргументы кластеризации:

  1. Входной fasta-файл
  2. Директория для результатов
  3. --sim - использовать поиск дубликатов вместо честной кластеризации
  4. --skip-first 5 - пропустить первые 5 (пример) букв при определнии дубликатов (при использовании --sim)
  5. --use-prct 70 - использовать только первые 70% (пример) сиквенса при определении дубликатов (при использовании --sim)
  6. --shortest-cons - использовать самые короткие сиквенсы для консенсуса вместо самых длинных (при использовании --sim, консенсус в этом случае - представитель класса эквивалентности)
  7. --min-len 100 - скидывать все сиквенсы длиной менее 100 (пример) в trash

Аргументы генерации отчета:

  1. Директория результатов кластеризации тяжелых цепей
  2. Директория результатов кластеризации легких цепей
  3. Путь выходного JSON (из которого нужно генерить красивую табличку)
  4. --fix-suffix - если у имен сиквенсов есть различные суффиксы (имя праймера, тип цепочки), которые у тяжелой и легкой цепи не совпадают, то их можно почистить

Как видно из аргументов, генерация отчетов не может рассматриваться как самостоятельный тул, он подразумевает обязательный запуск двух кластеризаций.

NB

Если же сразу сделать возможным "однокнопочный" последовательный запуск извлечения cdr3 и передачу их на кластеризацию и создание отчета, то будет совсем круто, и нас очень похвалят. :) Т.е. use-case - человек грузит 2 fasta файла: один с тяжелыми цепями, другой с легкими, и получает радость в виде отчета! :)

Feodorov commented 10 years ago

И все это нужно было сделать внезапно и вчера? :)

Feodorov commented 10 years ago

Не пробовал запускать, но возник вопрос - JSON получается на выходе кластеризатора?

zmactep commented 10 years ago

Именно так.

И да, это ответ на оба вопроса. :)