ITMO-NSS-team / itmo-nss-team.github.io

The informational page of the Natural Systems Simulation Lab
https://itmo-nss-team.github.io
MIT License
5 stars 1 forks source link

SynthShift, доработка статьи #79

Open ilia269 opened 3 months ago

ilia269 commented 3 months ago

Задачи по доработке статьи по SynthShift

  1. Разработать метод генерации смешанного сдвига
  2. Разработать метод получения интервальных оценок точности
  3. Рассмотреть возможность использования других метрик между распределениями
ilia269 commented 3 months ago

Задачи

Оценивать многомерный сдвиг и оптимизировать его величину Для аппроксимации многомерной плотности:

  1. Ядра
  2. Глубокая модель

Вопросы: скорость и точность

Результаты

Ужасная сходимость

ilia269 commented 3 months ago

Обзор статей по DRO

Ближайшие эксперименты:

  1. Реализовать подход с flow-based model Какую роль во всём этом играет SDO?
  2. Реализовать подход с second player

Общие вопросы:

  1. Как сделать генерацию не худшего домена, а произвольного? Заменить лосс?
  2. Каким генератором пользоваться? Flow-based, diffusion, GAN?

Результаты

  1. Переделывать методы для поиска худшего домена кажется не очень производительным
  2. Есть попытки создать отдельные методы для сдвига распределений. Пример эксперимента
  3. Есть идея объединить разрозненные методы по сдвигу распределений под СДО
ilia269 commented 3 months ago

Задачи

  1. Подготовить устойчивые модели для тестирования тут и провести эксперименты с reversed gradient
  2. Прочитать про СДО и случайные процессы
  3. Реализовать подход с GAN
  4. Прочитать статьи:
    • Есть статья про различные метрики, которые выявляют устойчивые модели. Сравнивается единичная модель и ансамбль
    • Есть статья, в которой про неопределённость статистики выборки в условиях сдвига. Интересное в related works
    • Есть статья с baseline model для работы в условиях сдвига.
ilia269 commented 2 months ago

Задачи

  1. Разобраться с методами реализации случайных процессов, описанных через СДУ
  2. Провести эксперименты с тестирование на распределениях сдвинутых через СДУ, добавить в SynthShift
Anaxagor commented 1 month ago

Проанализировать ревью на статью и сформировать задачи по доработке. https://openreview.net/forum?id=t7vzyWDnFQ&nesting=2&sort=date-desc

Anaxagor commented 1 month ago

По результатам анализа ревью предлагаю следующие доработки:

  1. Концептуально доработать метод. Действительно, одно лишь расстояние во-первых, не позволяет нам однозначно задать какой-то домен. Во-вторых, есть аналитические зависимости между величиной шифта и производительностью модели, так что не очень понятно, в чем роль синтетики здесь. Поэтому действительно можно добавить формулировку шифта как изменение характеристик данных и так их моделировать. Похожая постановка есть в этой статье https://proceedings.neurips.cc/paper_files/paper/2023/file/eec7fee9a8595ca964b9a11562767345-Paper-Conference.pdf про графы, можно переложить на табличные данные.
  2. Подумать над оценкой правдоподобности шифта, как это показать? Возможно показать явно, когда у нас есть известный таргет, что мы можем его достигнуть. Возможно стоит еще посмотреть в целом подходы к контролю качества синтетических данных.
  3. Добавить исследование на разных генеративных моделях.
  4. Расширить пул моделей ML.
ilia269 commented 1 month ago

Задачи

  1. Подготовить список характеристик данных (заполняется тут)
  2. Проверить, что смена домена приводит к смене характеристик
  3. Реализовать подход с GAN-генерацией данных со смещёнными характеристиками
  4. Найти способ демонстрации правдоподобия генерируемых данных. Мб какой-то наглядный синтетический пример?
  5. Запустить модели-аналоги (из TabReD, например)