Open Sergey-Knyazev opened 10 years ago
Можно подробнее про неклассифицируемые области? Это по результатам кроссвалидации, или из каких-то других соображений?
Это я запустил на ламовом датасете и получил результаты типа:
Seq_7045_1
ACCTTGAGGGAGTCTGGGGGAGGCTTGGTGCAGCCTGGGGGTTCTCTGAGACTCTCCTGTACAGCCTCTGGATTCAAGTTCGGTAGTTACTACATGACTTGGGTCCGCCAGGCTCCAGGGAAGGGCCTGGAGTGGGTATCCCATATTTATA
GTGACGGTAGTAATACGGCAGAGGCAGACTCCGTGAAGGGCCGATTCACCATTTCCAGAGACAATGCCAAGAACACGCTCTATCTACAAATGAATAGTCTGAAGTCTGAAGACACCGCCGTATATTATTGTGCAAAATATGGTAGTACGTG
GTCCAGTGCTTACGGCATGAACTTGTGGGGCAACGGAACCCTGGTCACCGTCTCTTCAGGGTCGAGTGC
<-----------------------------------FR1-----------------------------------><--CDR1---><FR2-><-------------------CDR2-------------------><-----FR3------
><-------CDR3--------><-----FR4-----><----------------------------N/A----------------------------><---------------N/A---------------><----N/A-----><-N/
A-->*****<-N/A-->+++++<N/A-><----------N/A----------->*****++++
Это явная ерунда не только из-за наличия N/A и +++/***, но и потому что не бывает таких коротких FR2 регионов и таких длинных CDR2.
А, понятно. В формулировке мне почудились какие-то дополнительные исследования на две кандидатских, которые формально доказали, что у нас низкая точность :)
Для тестовых ламовых данных точность предсказания низка из-за большего количества областей, которые деревья не классифицируют.
Подобрать параметры запуска, построить графики. В случае отсутствия оптимума на любых параметрах поставить вопрос о создании дополнительного фильтра.