ITMO-NSS-team / GAMLET

Framework for meta-optimisation in AutoML tasks
https://gamlet.readthedocs.io
BSD 3-Clause "New" or "Revised" License
35 stars 0 forks source link

Discussion: surrogate model behavior for unseen data #52

Open ShikovEgor opened 11 months ago

ShikovEgor commented 11 months ago

Добавили поддержку всех операций из FEDOT через OperationTypesRepository https://github.com/ITMO-NSS-team/MetaFEDOT/commit/4932d02a4ce7775bf74ff301bb1d144341e0fe77

Однако все равно остается вопрос: что делать суррогатной модели, если в оцениваемом пайплайне она встречает элемент, которого не было в тренировочных данных? Например, какая-то модель МО может быть заявлена в FEDOT, но не встречаться в истории запусков. Есть несколько вариантов: 1) выдавать None 2) выдавать среднее значение скора по тренировочной выборке 3) просто отдавать то, что выдаст модель (при этом эмбеддинг, соответствующий этому элементу будет случайным и значение скора модели непредсказуемым)

aPovidlo commented 11 months ago

Думаю, что для третьего стоит добавить это как отдельную сущность "не встреченная на обучении нода" пайплайна. Подобное существует в токенайзерах из NLP "unk_token_id", который говорит о том, что слово не встречается в словаре. Тогда в эмбеддингах будет репрезентация данных случаев в пространстве.