Имея на входе только fasta файл можно его скластеризовать одним из двух способов, на выходе получается директория с кучей результатов (консенсус, кластеры, дерево кластеризации, файл выравнивания и т.д.)
Имея на входе две такие директории от двух ранов можно построить json-файл статистики, который хотят биологи.
Аргументы кластеризации:
Входной fasta-файл
Директория для результатов
--sim - использовать поиск дубликатов вместо честной кластеризации
--skip-first 5 - пропустить первые 5 (пример) букв при определнии дубликатов (при использовании --sim)
--use-prct 70 - использовать только первые 70% (пример) сиквенса при определении дубликатов (при использовании --sim)
--shortest-cons - использовать самые короткие сиквенсы для консенсуса вместо самых длинных (при использовании --sim, консенсус в этом случае - представитель класса эквивалентности)
--min-len 100 - скидывать все сиквенсы длиной менее 100 (пример) в trash
Аргументы генерации отчета:
Директория результатов кластеризации тяжелых цепей
Директория результатов кластеризации легких цепей
Путь выходного JSON (из которого нужно генерить красивую табличку)
--fix-suffix - если у имен сиквенсов есть различные суффиксы (имя праймера, тип цепочки), которые у тяжелой и легкой цепи не совпадают, то их можно почистить
Как видно из аргументов, генерация отчетов не может рассматриваться как самостоятельный тул, он подразумевает обязательный запуск двух кластеризаций.
NB
Если же сразу сделать возможным "однокнопочный" последовательный запуск извлечения cdr3 и передачу их на кластеризацию и создание отчета, то будет совсем круто, и нас очень похвалят. :)
Т.е. use-case - человек грузит 2 fasta файла: один с тяжелыми цепями, другой с легкими, и получает радость в виде отчета! :)
Добавился тул ig-simplecluster.
Идея такова:
Аргументы кластеризации:
Аргументы генерации отчета:
Как видно из аргументов, генерация отчетов не может рассматриваться как самостоятельный тул, он подразумевает обязательный запуск двух кластеризаций.
NB
Если же сразу сделать возможным "однокнопочный" последовательный запуск извлечения cdr3 и передачу их на кластеризацию и создание отчета, то будет совсем круто, и нас очень похвалят. :) Т.е. use-case - человек грузит 2 fasta файла: один с тяжелыми цепями, другой с легкими, и получает радость в виде отчета! :)