dialogue-evaluation / GramEval2020

21 stars 6 forks source link

Закрытая ли обучающая выборка? #15

Closed victorbocharov closed 4 years ago

victorbocharov commented 4 years ago

Т.е. можно ли задействовать размеченные обучающие данные, которых нет в папке https://github.com/dialogue-evaluation/GramEval2020/tree/master/dataTrain ?

Или другие версии этих же файлов, взятые из источников?

TatianaShavrina commented 4 years ago

Добрый день!

Разрешено использовать любые источники , но в конце нужно будет выложить обученную систему на гитхаб

Все данные помимо вышеупомянутых перечислены в data.md

victorbocharov commented 4 years ago

"любые источники" или train set ограничен данными, которые "перечислены в data.md"?

Обученную систему или возможность воспроизвести процедуру обучения?

Пункт о выкладывании на гитхаб трудно выполнить, т.к. бинарник fastText, по умолчанию, весит 7Gb и он плохо жмётся. Гитхаб не позволяет выкладывать в релизы файлы больше 2Gb.

TatianaShavrina commented 4 years ago

В первом сообщении было два вопроса, поэтому я ответила по порядку: 1) данные для обучения можно использовать любые 2) в data.md перечислены датасеты, которые оргкомитет соревнования подготовил в помощь участникам

Мы ждём от участников обученные системы, наличие скриптов для воспроизведения обучения опционально. Если модель эмбеддингов общеизвестная и уже где-то опубликована, достаточно указать, где её скачать. Если же модель ваша оригинальная, то желательно её залить на какое-либо облако и дать ссылку, а ещё лучше - написать скрипт скачивания, как, например, тут: https://github.com/sberbank-ai/combined_solution_aij2019/blob/master/download_models.py