perechen / russian.songs.fin.thesis

0 stars 1 forks source link
corpus-data literature

Russian songs 1800-1840s

Up to date corpus of "Russian songs" - literary imitatons of folksongs from 1800-1840ss
Materials for the doctoral thesis: А. Шеля. Русская песня в литературе 1800-1840-х гг. [в печати]

Корпус
Графики
Таблицы
Стилометрия
Пояснение к метаданным корпуса РП

Корпус

RP_data.csv Основная таблица с метаданными по собранным вручную "русским песням" (1800-1840-е), включает библиографическое описание, метрическую формулу и вещи подобного рода.

corpus_split Корпус текстов РП в отдельных файлах (современная орфография). У каждого файла есть идентификатор, который соответствует его номеру (id) в RP_data.csv

make_corpus_from_csv.R Код для того, чтобы делать "сводный" корпус из отдельных текстов РП (например, следуя некоторым условиям: только "центральные" песни или только тексты 1810-х гг.)

Графики

Все графики в работе выполнены при помощи ggplot2 (за исключением связанных со стилометрией)

Рис. 1.1. Код
«Русские песни» в периодической печати 1800-1840-х гг. (388 текстов из 622)

1.1.

Рис. 2.1. Код
Отношение «русских песен» ко всем произведениям со словом «песня» в заголовке (в %).

2.1.

Рис. 4.1. Код
Доля белых стихов у А.В. Кольцова относительно общего количества строк за каждый год.

4.1.

Рис. 4.2. Код
Появление "русской песни" у А.В. Кольцова и другие "песенные" заглавия

4.2.

Рис. 5.1. Код
Одинарные пятисложники в "русских песнях" до 1833 г. (60 текстов).

5.1.

Рис. 5.2. Код
Сравнение профилей ударности 4-ст. хорея: XIX в. (по Тарановскому), корпус РП (13 текстов) и Цыганов (подсчеты по РП)

5.1.

Таблицы

Таблицы и цифры, стоящие за ними.
Таблица 1.1. Популяция песенных жанров в журналах 1800-х гг.
Таблица 5.1. Метрический репертуар "русских песен" 1800-1840-х гг. в процентах. Исходные данные
Таблица 5.2. Частотные варианты размеров РП в процентах. Исходные данные
Таблица 5.3. "Голоса" песен, указанные при публикации.
Таблица 5.4. "Голоса" песен по косвенным свидетельствам, предположения. Частотные "музыкальные" размеры

Стилометрия

Для стилометрического анализа использовался пакет stylo для R.
Все корпуса были лемматизованы (mystem v.3.0).

Список корпусов

  1. Russkie_pesni.txt. Объединенный корпус "русских песен". Вошли тексты только с пометкой "core" (см. таблицу), принятые как центральные относительно поля жанра (511 текстов из 622)
    • ~55 тыс. слов
  2. kireevsky.txt. Собрание Киреевского. Основной контрастивный корпус фольклорной песни
    • ~120 тыс. слов
  3. sobolevsky.txt. Собрание Соболевского. Дополнительный контрастивный корпус фольклорной песни
    • ~500 тыс. слов
  4. pesenniki.txt. Песенники (1800-1840-е). Раздел "Простонародная песня" из больших сводных песенников первой половины XIX в.
    • ~20 тыс. слов
  5. ruscorpora.txt. Популяция русской поэзии первой половины XIX в., составленная по поэтическому подкорпусу НКРЯ
    • ~1.9м слов

Результаты экспериментов

  1. Кластерный анализ. MFW 100, Culling 100. (Рис 5.3.) + Нормализованные частоты слов
  2. Бутстреп-кластеризация, 3 случайные выборки по 10000 слов. MFW 100-300, Culling 0-100. (Рис. 5.4.)
  3. Многомерное шкалирование, нелемматизованные корпуса. MFW 100, Culling 100. (Рис. 5.5.)
  4. Многомерное шкалирование для слов: на, то, за, по, во, у, а, да, под, со, ко. (Рис. 5.6.)
  5. Многомерное шкалирование для слов: злодейка, лютый, ненаглядный, солнышко, пташка, подруженька, доля, звездочка, кручина, вечерок, кручинушка, кольцо, цветочек. (Рис. 5.7.)
  6. Многомернорное шкалирование, попытка уловить хронологические смещения РП по десятилетиям, 3 случайные выборки из всех корпусов (кроме РП) по 20000 слов. MFW 300, Culling 0. (Рис. 5.8.)

Более детальные данные по каждому эксперименту см. в папке /Stylometry

Пояснение

id. Идентификатор текста, соответствующий текстам в корпусе.
Name. Имя автора или подпись под публикацией.
Title. Первая строка стихотворения (без знаков препинания).
Publication. Первая публикация + дополнительные перепечатки + современные переиздания (если это источник текста в корпусе).
Year. Датировка стихотворения.
period. Десятилетие.
G_title. Заголовок + подзаголовок стихотворения.
Сomment. Дополнительные сведения о публикации (примечания, особенности, etc).
pub_year. Год первой публикации текста.
pub_type. Тип первой публикации - периодика (+альманахи) или другое (collection включает также случаи, когда песня была интегрирована в какое-нибудь большое произведение).
Meter. Метрическая формула.
Regularity. Регулярность метра.
Rhyme. Наличие/отсутствие рифмы + окказиональная рифмовка.
Type. Относится ли текст к ядру жанра (core) или нет (periph). Произвольное решение составителя.
Meter2. Метрическая форма текста.
Syllab. Количество стоп.
Clausula. Последовательность окончаний.
Fin. Характеристика размеров (по принципу М.Л. Гаспарова)
melody. Существование мелодического источника ("голоса") для песен. Многие данные здесь и в следующем поле основаны на предположениях.
melody_src. Прямой или возможный источник "голоса" и мелодический образец.