Closed natalymr closed 5 years ago
Количество данных в каждом из датасетов:
intellij
- все токены кроме сепараторов
aurora
- все токены кроме сепараторов ([, ], (, ), {, }, ;, ,,)
intellij
- только идентификаторы
aurora
- только идентификаторы
min_df
and max_df
values to non-default values is still a good idea.
https://github.com/natalymr/gcm/blob/master/naive_bayes/naive_bayes.ipynb
all tokens without separators
only identifiers