Baselines evaluated only for part of datasets

ShikovEgor commented 1 year ago

В базе запусков 16 датасетов размечены как тестовые (см. строки с is_train=0): https://github.com/ITMO-NSS-team/MetaFEDOT/blob/main/data/knowledge_base_0/train_test_datasets_classification.csv Однако расчеты бейзлайнов с помощью AutoSklearn и Random Forest classifier были проведены лишь для 8 датасетов (см. скрин).

tempsnip

MorrisNein commented 1 year ago

Фактически, это база без бейзлайна. То, что для некоторых датасетов есть random forest, это скорее случайность.

База с бейзлайнами в процессе вычисления

ShikovEgor commented 1 year ago

Не, я про другое. В данных из чата есть 8 датасетов, на которых посчитаны результаты 1) Auto-sklearn 2) RandomForest. А в базе 16 датасетов отмечены как тестовые.

nicl-nno commented 1 year ago

@algormx можно для них досчитать или для этого что-то ещё нужно?

AxiomAlive commented 1 year ago

Добрый день!

Провести расчеты на кэшируемых датасетах возможно, но опять же нужна разметка на тренировочную и тестовую выборки. Ставил ранее такой вопрос #11.

Касаемо данного ишью, то мы скорее должны провести эксперименты на OpenML-CC18 бэнчмарке, база результатов запусков по которому как я понимаю еще в процессе сбора.

Есть еще вопрос, связанный с постановкой эксперимента: для того, чтобы добиться репродуцируемых результатов, возможно стоит запускать baselines на одной и той же ВМ?

ShikovEgor commented 1 year ago

1) разметка есть https://github.com/ITMO-NSS-team/MetaFEDOT/blob/main/data/knowledge_base_0/train_test_datasets_classification.csv И, если я не ошибаюсь, Петр ответил, как ее можно получить в последнем сообщении здесь: https://github.com/ITMO-NSS-team/MetaFEDOT/issues/11. 2) По поводу репродуцируемых результатов: а сиды фиксируются сейчас?

AxiomAlive commented 1 year ago

Разметка все-таки для других данных. Если планируется использовать их, то не вопрос.

Seed 42.

ShikovEgor commented 1 year ago

Возможно, я что-то путаю. Насколько я понимаю, разметка для данных из базы в репозитории.

ShikovEgor commented 1 year ago

@MorrisNein можешь помочь разобраться?

MorrisNein commented 1 year ago

@ShikovEgor, насколько я понимаю, @algormx посчитал бейзлайны иным образом, чем посчитаны данные

Во-первых, таким образом нашлись не все датасеты, что и послужило причиной вопроса в этой issue. Во-вторых, такие бейзлайны не очень корректны

Хорошо бы их считать через обвязку другого проекта на заранее разбитых по фолдам данных, потому что так была рассчитана вся база

Но если не через ту обвязку, то хотя бы на тех же данных. Они есть в хранилище лаборатории

@algormx, не стесняйтесь задавать вопросы. Можно в ЛС, а не через issue, для скорости коммуникации

AxiomAlive commented 1 year ago

Добрый день!

Спасибо за пояснение.

То есть запускаем на разных машинах? И что касается бэнчмарка, который я волей судьбы проводил - для него baseline-расчеты планируются?

nicl-nno commented 1 year ago

То есть запускаем на разных машинах?

В идеале надо на одной, конечно. Но для этого надо все упаковать в единый код.

AxiomAlive commented 1 year ago

Добрый день!

По итогам предварительных запусков - kddcup09_appetency и kddcup99_full проблемные при текущих условиях эксперимента с auto-sklearn. Для первого датасета не находится ничего лучше dummy model, а для другого по всей видимости не хватает 8гб оперативки.

Есть предположения касаемо количества датасетов, на которых желательно провести сравнение для текущей статейной итерации?

nicl-nno commented 1 year ago

По нашему опыту на kddcup99_full и 32Гб не хватает. Результат с dummy_model норм для сравнения.

По количеству - да в целом чем больше, тем лучше. На этом же ещё мета-модели обучать.

ITMO-NSS-team / GAMLET

Baselines evaluated only for part of datasets #20