Closed victorbocharov closed 4 years ago
Единый файл, который нужно предоставить, содержит замешанную золотую выборку, которая при проверке сортируется по 6 различным источникам. Итоги по источникам оцениваются отдельно.
Процедуру проверки можно увидеть тут: https://github.com/dialogue-evaluation/GramEval2020/blob/master/codalab_private_evaluate.py
Спасибо, но это не отвечает на мои вопросы, к сожалению. Их два:
Если превоначально планировалось анализировать все жанры вместе одной моделью, то почему бы не выдать public в том же виде, что private? Тогда было бы время на обсуждение второго вопроса.
Спасибо за уточнение! Ответ на ваш вопрос таков: public и private тесты не обязаны быть одинаковыми. В этом году dialogue evaluation первый раз унифицировал процедуру соревнований с помощью codalab, поэтому всем необходимо опробовать процедуру подачи и получить обратную связь - это суть публичного теста. По этой причине участникам были доступны исходные файлы и их золотая разметка.
Задача private test - приблизиться к реальному , боевому применению систем. В нашем соревновании мы пытаемся представить вариативность русского языка максимально широко: ресурсов могло бы быть не 6 (это некоторая условность), а больше, будь у нас больше разметчиков.
Мы как организаторы считаем, что подгон на данных для SOTA - пагубная практика, которая не ведет к разработке генерализирующих хороших моделей.
Мы ждём от участников общие модели. При такой постановке вопроса набрать acc 99% не получится, но можно все равно соревноваться друг с другом и сделать до 100 сабмитов на private test - это очень мягкое условие.
Реальное боевое применение одновременно на текстах 17 века в дореволюционной орфографии и на современных текстах кажется мне странным решением. Это два разных языка на всех уровнях анализа. Если кому-то, действительно, нужно, чтобы было хорошо в обоих случаях, то он сделает две модели и классификатор языка. В этом случае качество обоих компонентов (классификатора и анализатора) будут влиять на оценку.
Реплику про погдон я не понял :(
Мы ждём от участников общие модели.
Я, кажется, это пропустил :(( Где об этом было сказано ранее?
We welcome systems that steadily process all the variety of texts in the Russian language
Это же не то же самое, что "сгенерите одну модель для всех жанров".
С практической точки зрения, я думаю, что ожидания оргкомитета относительно решений должны быть очевидным образом проверяемы.
Каковы критерии общности моделей?
Например, разные выходные слои для разных языков/жанров при общих промежуточных - это ещё одна модель или уже нет?
public и private тесты не обязаны быть одинаковыми.
Мне трудно согласиться с этим утверждением. Кажется разумным ожидать, что они одинаковым образом представляют задачу.
Простите, я не вижу предмета для обсуждения в данном вопросе. Я могу помочь с вопросами сабмитов, но пересматривать условия в угоду отдельным участникам мы не будем.
В описании соревнования присутствует текст, что набор данных для теста будет закрытым: During the evaluation phase, submissions are evaluated against the closed test data, which include texts in many genres and from different sources in Russian. Достаточно сложно было предположить, что кто-то захочет делать N систем , затачиваясь на отдельные наборы данных. В любом случае, мы методологически против такого подхода.
Тексты разных жанров слиты в один файл в private test. В public test они были в отдельных файлах. Прошу прокомментировать это различие public и private и цель объединения нескольких жанров в один файл.