Продумывание кейсов для модуля генерации синтетических данных

Варианты для тестирования:

Тестирование на различных подгруппах. Подзадачи:
- Деление на подгруппы. По неопределённости, по доменам категориальной фичи, по квантилям непрерывной фичи, по величине плотности распределения
Балансировка классов, как в статье
Расширение малой выборки. Подзадачи:
- Есть ли у БН какие-то устойчивые тенденции при выучивании распределения? Мб баес или сглаживание или ещё что
- Расширение тренировочной выборки. Для улучшения качество можно использовать предыдущую подзадачу. Т. н. задача Synthetic-to-Real Domain Adaptation (см. например тут гл. 10)
- Расширение тестовой выборки. Сложность: можно ли доверять оценке на синтетических данных?
- До какого размера? Есть теор оценки о размере выборки и возможно отклонении скора модели на выборке и ген совокупности
Сравнение выборок между собой
- Оценка дивергенции между двумя распределениями. БН позволяет в явном виде записать плотность
- Проверка гипотезы, что данные из одной выборки. Существует многомерный вариант теста Смирнова, например тут библиотека, тут статья
- Оценка качества обучения БС по выборке : сравнение маргинальных распределений, матриц ковариаций, средних, пример разных простых метрик можно взять тут
Расчёт каких-то характеристик для выборок
- Под вопросом, потому что кажется, что все характеристики можно прикинуть по исходной выборке
- Мб с БН можно давать интервальную оценку характеристикам?
Проверка стат гипотез
- На многомерный гаусс
Анонимизация данных
- Пример статьи

Anaxagor / applyBN

Продумывание кейсов для модуля генерации синтетических данных #4