zmactep / ig-pipeline

2 stars 0 forks source link

Вопрос: а не разбить ли нам на 2 статьи материал? #37

Open zmactep opened 10 years ago

zmactep commented 10 years ago

Лимит по статье: 12 страниц (это вместе с картинками, таблицами и прочим). У анс чисто черновик с идеями получился 6.

Не разбить ли нам все это дело на две статьи? Хочу доводы за и против.

Мне с одной стороны кажется, что это было бы правильно, с другой, нормально ли будут смотреться эти вещи самостоятельно?

2 статьи:

Feodorov commented 10 years ago

А ты открой требования к оформлению статей, и проставь нужные отступы и т.д. и т.п. - и увидишь как место сразу высвободится.

zmactep commented 10 years ago

В случае положительного решения, план статей вижу таким:

Супер-быстрый поиск регионов методами случайных деревьев

Нет нормальных тулов для работы с большими датасетами и представляющими нормальные результаты в машиночитаемом формате. При этом здесь даже не так важна точность, как скорость работы для быстрого предварительного анализа. То, что есть обладает кучей недостатков: либо single-data, либо до FR3-региона, либо вообще какая-то хрень ибо ве-сервис. А нам очень надо в том числе и включать в пайплайны, так что мы сделали свое.

Есть четкая взаимосвязь между вторичной структурой и регионами. Более того две поисковые задачи довольно-таки изоморфны. Еще в 70-80 придумали подход, когда рассматривается плавающее окно и решается вопрос о принадлежности структурному варианту некоторой аминокислоты в зависимости от ее окружения с двух сторон. Позже идеи были развиты с помощью алгоритмов машинного обучения, которые сейчас позволяют довольно точно что-то определять, смотря на эти окна нейронными сетями или SVM. Однако здесь SVM подходит плохо, т.к. сложно разделить паттерны в feature space какими-либо гиперплоскостями. А потому мы решили использовать Random Forest, ибо идеологически он ближе к тому, как сейчас определяют регионы биологи: просмотр некоторой аминокислоты и вариаций ее окружения. Кстати, что-то подобное уже сделали в proABC, но они хотят полный сиквенс, обязательно аминокислотный, и ищут немного другое. Мы же можем искать любые регионы на любых осколках иммуноглобулинов.

Взяли RandomForest из weka. Подготовили тренировочную выборку с помощью симуляции V(D)J рекомбинации. Сделали хрень для подготовки данных перед отправкой на weka и анализатор вывода. Поигрались с параметрами, получили что-то работающее.

Все ищется хорошо, быстро и удобно, вот вам графики и таблички сравнения с IMGT/V-QUEST, IgBLAST и proABC

Для того, чтоб все хорошо работало, обучающая выборка должна быть из близкородственного организма к предсказываемым данным. Также для избежания overfitting туда можно добавить шум в хотспотах. В целом, алгоритм классный.

Супер-точный поиск регионов методом аннотирующего контейнера

Работая с результатами скрининга хочется уметь строить анализ на конкретных регионах и вообще знать различные аннотации и свойства различных участков вариабельных доменов иммуноглобулинов. Существующие решения не позволяют включать себя в автоматическую обработку в качестве этапа пайплайна, что так нужно при крупномасштабном изучении области. Чудесный тул IMGT/V-QUEST удобен, когда надо посмотреть одного кандидата, но не когда требуется произвести селекцию in silico. Так же все тулы имеют чисто алгоритмические ограничения, что не позволяет из использовать так, как хочется. Тем не менее, нужно признать, что выравнивание на некоторую размеченную выборку по-прежнему остается одним из наиболее точных методов аннотирования новых последовательностей. Мы представляем метод, который позволит делать это быстро и удобно.

Для алгоритмов поиска множества паттернов типа Ахо-Корасик используется префиксное дерево или бор, которое позволяет уменьшить количество данных, склеивая строки префиксами, где это возможно. Раз уж люди используют такие штуки для случайных строк, то уж для иммуноглобулинов сам бог велел: за счет V(D)J рекомбинации и особенностей иммуноглобулинов вообще, их вариабельность растет к концу, в начале же могут быть весьма схожие последовательности. Нередка ситуация, когда даже антитела на разные мишени имеют одинаковые не то что FR, но и первые 1-2 CDR региона. В таком случае использвоание бора для хранения иммуноглобулинов кажется отличной идеей. Такое хранение позволяет быстро производить многие алгоритмы, ища выравнивания и аннотируя новые последовательности.

См. в текущем черновике

Сравнение точности с тем же набором + RF. Статистика по памяти, времени работы.

См. в текущем черновике

zmactep commented 10 years ago

@Feodorov я все по этим правилам и делаю: http://www.iscb.org/ismb2014-submission/ismb2014-call-for-proceedings

Уменьшим поля разве что сейчас, но все равно 5 страниц выходит. А 12 - это жесткий макисмум.

Feodorov commented 10 years ago

Чего-то я про поля не вижу. Вижу только 12 pt и одиночный межстрочный интервал

zmactep commented 10 years ago

Я тоже не нашел. Решил просто уменьшить поля, а то стандартные слишком обширны.

Sergey-Knyazev commented 10 years ago

Разделить на 2 статьи мне кажется логичным, т.к. Annotation Container и Random Forest могут существовать друг без друга.