Success with Style: Using Writing Style to Predict the Success of Novels

Можно посмотреть статью и слайды

Кратко Задача классификации: предсказать успешность/неуспешность книги. Выборка: книги с Project Gutenberg; выборка разделена на жанры; успех определяется количеством скачиваний. Методы: униграммы и биграммы, распределение частей речи, правил контекстно-свободной грамматики, типов синтаксических составляющих (отдельно на уровне фраз и на уровне клауз) и эмоционально окрашенной лексики. Модель: LibLinear SVM с регуляризатором L2 и кросс-валидацией. Лучшие результаты по всем жанрам, кроме исторического, находятся в промежутке 74-84% и достигаются с CFG.

Вопросы для обсуждения

Можете ли вы предложить другие метрики для решения этой задачи? (Посчитать количество запятых? Сколько слов начинается на букву а? Пусть ваши варианты будут более осмысленными)
Чем, на ваш взгляд, будет отличаться решение этой задачи для русского языка?
Можете ли вы объяснить (с точки зрения литературоведения) наблюдения о распределении частей речи, составляющих и сфер лексики, описанные в статье? (То есть, например, почему в "хороших" книгах больше существительных, чем в "плохих"? Может быть, есть какие-то принципы написания текстов, которые это всё объясняют.)

Возможно, стоит добавить в число признаков среднюю (или максимальную, минимальную, медианную) длину предложения. Не знаю, насколько осмысленным был бы такой признак, но он кажется не самым бесполезным: по крайней мере, есть ощущение, что тексты со слишком длинными предложениями не очень нравятся читателям (иначе бы не было мемов про "воду" в "Войне и мире", или фраза "Краткость – сестра таланта" звучала бы гораздо реже).

Я также заметила, что в числе униграмм для наиболее успешных книг оказываются стоп-слова. Это интересное и какое-то закономерное наблюдение с точки зрения стилеметрии, но мне кажется, что было бы интересно разделить признак "униграммы" на два признака: "униграммы-стоп слова" и "униграммы, в число которых стоп-слова не входят" (аналогично можно поступить и с биграммами?). Не уверена, что это как-либо улучшило бы качество модели, но в числе униграмм без стоп-слов для наиболее успешных книг можно было бы получить более нагруженные смыслом лексемы (= в большей степени понять, какая же лексика отвечает за успех книги).

lilaspourpre / nnlp-cl-2022

Success with Style: Using Writing Style to Predict the Success of Novels #1