SElector (от слов Standardization - стандартизация - и Elections - выборы)
Описание
Результаты выборов разных уровней, начиная с местного самоуправления и заканчивая федеральными, публикуются в системе ГАС Выборы. Доступны как агрегированные данные (территориальной избирательной комиссии - ТИКа, финальные), так и результаты по отдельным участковым избирательным комиссиям (УИКам). Эти данные активно используются исследователями при анализе аномалий. Самый известный пример - методология Сергея Шпилькина (видео). Достаточно полную классификацию методов электорального анализа можно найти здесь, а также см. успешные примеры исследований, открытий, разоблачений.
Текущие проблемы данных, публикуемых в системе ГАС Выборы:
наименование полей "контрольных сумм" (см. рисунок) отличаются от УИКа к УИКу. Например, значение "выдано на УИК" может встречаться в разных формах: "Число избирательных бюллетеней, выданных в помещении для голосования в день голосования", "Число бюллетеней, выданных избирателям в помещении для голосования в день голосования", "Число бюллетеней, выданных УИК избирателям в помещении", "Число бюллетеней, выданных на участке" и т.д.
значения поля "субъекты выдвижения" (обычно партии и движения) в разных регионах встречаются по-разному. Например, "Кыринское Местное отделение Забайкальского регионального отделения Партии "ЕДИНАЯ РОССИЯ", "Забайкальское региональное отделение Политической партии ЛДПР - Либерально-демократической партии России", "ЯГМО ПП "КПРФ"" => ожидается приведение к "Единая Россия", "ЛДПР", "КПРФ".
Необходимо построить технологию "понимания" данных протоколов УИКов и результатов выборов для приведения их к стандартной форме. Парсинг сайта ГАС Выборы не входит в задачи этого проекта: предполагается, что данные на распознавание могут передаваться в некотором структурированном формате (например, JSON).
Цели
Предоставить технологию семантического распознавания протоколов для автоматизации и масштабирования сервисов/проектов визуализации/анализа российской электоральной статистики. Такие сервисы могли бы:
расширить поле применения методов выявления электоральных аномалий (данные с отдельных УИКов здесь особенно полезны) для выборов всех уровней
объединить данные разных текущих выборов для отслеживания электоральных трендов политиками, журналистами и др. Пример такого обзора
предоставить кандидатам, журналистам и наблюдателям возможность немедленной реакции. Кандидаты могли бы оспаривать аномальные результаты. Журналисты – делать расследования по горячим следам. Наблюдатели – подтверждать свои сообщения официальной статистикой.
Пример похожего сервиса - info.vybory.pro), в котором, однако, нет данных по отдельным УИКам, и неполное покрытие выборов.
Примерная реализация
Основным результатом является модель семантического распознавания полей формы и значений поля "субъекты выдвижения". Конкретный подход может быть выбран после предварительных экспериментов. Возможным ядром технологии может быть sentence encoder (например, Sentence-BERT в реализации Sentence Transformer), fine-tuned на имеющихся примерах, собранных вручную (возможно, после domain adaptation языковой модели на корпусе текстов электоральной тематики).
Интерфейс технологии может быть реализован в виде REST API поверх served модели.
Название
SElector (от слов Standardization - стандартизация - и Elections - выборы)
Описание
Результаты выборов разных уровней, начиная с местного самоуправления и заканчивая федеральными, публикуются в системе ГАС Выборы. Доступны как агрегированные данные (территориальной избирательной комиссии - ТИКа, финальные), так и результаты по отдельным участковым избирательным комиссиям (УИКам). Эти данные активно используются исследователями при анализе аномалий. Самый известный пример - методология Сергея Шпилькина (видео). Достаточно полную классификацию методов электорального анализа можно найти здесь, а также см. успешные примеры исследований, открытий, разоблачений.
Текущие проблемы данных, публикуемых в системе ГАС Выборы:
Необходимо построить технологию "понимания" данных протоколов УИКов и результатов выборов для приведения их к стандартной форме. Парсинг сайта ГАС Выборы не входит в задачи этого проекта: предполагается, что данные на распознавание могут передаваться в некотором структурированном формате (например, JSON).
Цели
Предоставить технологию семантического распознавания протоколов для автоматизации и масштабирования сервисов/проектов визуализации/анализа российской электоральной статистики. Такие сервисы могли бы:
Пример похожего сервиса - info.vybory.pro), в котором, однако, нет данных по отдельным УИКам, и неполное покрытие выборов.
Примерная реализация
Основным результатом является модель семантического распознавания полей формы и значений поля "субъекты выдвижения". Конкретный подход может быть выбран после предварительных экспериментов. Возможным ядром технологии может быть sentence encoder (например, Sentence-BERT в реализации Sentence Transformer), fine-tuned на имеющихся примерах, собранных вручную (возможно, после domain adaptation языковой модели на корпусе текстов электоральной тематики).
Интерфейс технологии может быть реализован в виде REST API поверх served модели.