Open vbunt opened 2 years ago
Я также заметила, что в числе униграмм для наиболее успешных книг оказываются стоп-слова. Это интересное и какое-то закономерное наблюдение с точки зрения стилеметрии, но мне кажется, что было бы интересно разделить признак "униграммы" на два признака: "униграммы-стоп слова" и "униграммы, в число которых стоп-слова не входят" (аналогично можно поступить и с биграммами?). Не уверена, что это как-либо улучшило бы качество модели, но в числе униграмм без стоп-слов для наиболее успешных книг можно было бы получить более нагруженные смыслом лексемы (= в большей степени понять, какая же лексика отвечает за успех книги).
Можно посмотреть статью и слайды
Кратко Задача классификации: предсказать успешность/неуспешность книги. Выборка: книги с Project Gutenberg; выборка разделена на жанры; успех определяется количеством скачиваний. Методы: униграммы и биграммы, распределение частей речи, правил контекстно-свободной грамматики, типов синтаксических составляющих (отдельно на уровне фраз и на уровне клауз) и эмоционально окрашенной лексики. Модель: LibLinear SVM с регуляризатором L2 и кросс-валидацией. Лучшие результаты по всем жанрам, кроме исторического, находятся в промежутке 74-84% и достигаются с CFG.
Вопросы для обсуждения