Code-for-Russia / How-to-start

Основной репозиторий для старта: обсуждение идей проектов и прочая вводная информация
MIT License
7 stars 2 forks source link

SElector: стандартизация форм результатов выборов в системе ГАС Выборы #11

Open nzhiltsov opened 3 years ago

nzhiltsov commented 3 years ago

Название

SElector (от слов Standardization - стандартизация - и Elections - выборы)

Описание

Результаты выборов разных уровней, начиная с местного самоуправления и заканчивая федеральными, публикуются в системе ГАС Выборы. Доступны как агрегированные данные (территориальной избирательной комиссии - ТИКа, финальные), так и результаты по отдельным участковым избирательным комиссиям (УИКам). Эти данные активно используются исследователями при анализе аномалий. Самый известный пример - методология Сергея Шпилькина (видео). Достаточно полную классификацию методов электорального анализа можно найти здесь, а также см. успешные примеры исследований, открытий, разоблачений.

Текущие проблемы данных, публикуемых в системе ГАС Выборы:

Необходимо построить технологию "понимания" данных протоколов УИКов и результатов выборов для приведения их к стандартной форме. Парсинг сайта ГАС Выборы не входит в задачи этого проекта: предполагается, что данные на распознавание могут передаваться в некотором структурированном формате (например, JSON).

Цели

Предоставить технологию семантического распознавания протоколов для автоматизации и масштабирования сервисов/проектов визуализации/анализа российской электоральной статистики. Такие сервисы могли бы:

Пример похожего сервиса - info.vybory.pro), в котором, однако, нет данных по отдельным УИКам, и неполное покрытие выборов.

Примерная реализация

Основным результатом является модель семантического распознавания полей формы и значений поля "субъекты выдвижения". Конкретный подход может быть выбран после предварительных экспериментов. Возможным ядром технологии может быть sentence encoder (например, Sentence-BERT в реализации Sentence Transformer), fine-tuned на имеющихся примерах, собранных вручную (возможно, после domain adaptation языковой модели на корпусе текстов электоральной тематики).

Интерфейс технологии может быть реализован в виде REST API поверх served модели.

nzhiltsov commented 3 years ago

Добавлен RFC с предложенным решением для обсуждения