Anaxagor / applyBN

4 stars 0 forks source link

Продумывание кейсов для модуля генерации синтетических данных #4

Open Anaxagor opened 3 months ago

Anaxagor commented 3 months ago

Варианты для тестирования:

  1. Тестирование на различных подгруппах. Подзадачи:
    • Деление на подгруппы. По неопределённости, по доменам категориальной фичи, по квантилям непрерывной фичи, по величине плотности распределения
  2. Балансировка классов, как в статье
  3. Расширение малой выборки. Подзадачи:
    • Есть ли у БН какие-то устойчивые тенденции при выучивании распределения? Мб баес или сглаживание или ещё что
    • Расширение тренировочной выборки. Для улучшения качество можно использовать предыдущую подзадачу. Т. н. задача Synthetic-to-Real Domain Adaptation (см. например тут гл. 10)
    • Расширение тестовой выборки. Сложность: можно ли доверять оценке на синтетических данных?
    • До какого размера? Есть теор оценки о размере выборки и возможно отклонении скора модели на выборке и ген совокупности
  4. Сравнение выборок между собой
    • Оценка дивергенции между двумя распределениями. БН позволяет в явном виде записать плотность
    • Проверка гипотезы, что данные из одной выборки. Существует многомерный вариант теста Смирнова, например тут библиотека, тут статья
    • Оценка качества обучения БС по выборке : сравнение маргинальных распределений, матриц ковариаций, средних, пример разных простых метрик можно взять тут
  5. Расчёт каких-то характеристик для выборок
    • Под вопросом, потому что кажется, что все характеристики можно прикинуть по исходной выборке
    • Мб с БН можно давать интервальную оценку характеристикам?
  6. Проверка стат гипотез
    • На многомерный гаусс
  7. Анонимизация данных
ilia269 commented 3 weeks ago

Описание планируемых экспериментов и результаты проведённых -- тут

Презентация по проведённы экспериментам тут