zmactep / ig-pipeline

2 stars 0 forks source link

Подбор параметров случайных деревьев #22

Open Sergey-Knyazev opened 10 years ago

Sergey-Knyazev commented 10 years ago

Для тестовых ламовых данных точность предсказания низка из-за большего количества областей, которые деревья не классифицируют.

Подобрать параметры запуска, построить графики. В случае отсутствия оптимума на любых параметрах поставить вопрос о создании дополнительного фильтра.

Feodorov commented 10 years ago

Можно подробнее про неклассифицируемые области? Это по результатам кроссвалидации, или из каких-то других соображений?

zmactep commented 10 years ago

Это я запустил на ламовом датасете и получил результаты типа:

Seq_7045_1
ACCTTGAGGGAGTCTGGGGGAGGCTTGGTGCAGCCTGGGGGTTCTCTGAGACTCTCCTGTACAGCCTCTGGATTCAAGTTCGGTAGTTACTACATGACTTGGGTCCGCCAGGCTCCAGGGAAGGGCCTGGAGTGGGTATCCCATATTTATA
GTGACGGTAGTAATACGGCAGAGGCAGACTCCGTGAAGGGCCGATTCACCATTTCCAGAGACAATGCCAAGAACACGCTCTATCTACAAATGAATAGTCTGAAGTCTGAAGACACCGCCGTATATTATTGTGCAAAATATGGTAGTACGTG
GTCCAGTGCTTACGGCATGAACTTGTGGGGCAACGGAACCCTGGTCACCGTCTCTTCAGGGTCGAGTGC
<-----------------------------------FR1-----------------------------------><--CDR1---><FR2-><-------------------CDR2-------------------><-----FR3------
><-------CDR3--------><-----FR4-----><----------------------------N/A----------------------------><---------------N/A---------------><----N/A-----><-N/
A-->*****<-N/A-->+++++<N/A-><----------N/A----------->*****++++

Это явная ерунда не только из-за наличия N/A и +++/***, но и потому что не бывает таких коротких FR2 регионов и таких длинных CDR2.

Feodorov commented 10 years ago

А, понятно. В формулировке мне почудились какие-то дополнительные исследования на две кандидатских, которые формально доказали, что у нас низкая точность :)