dialogue-evaluation / GramEval2020

21 stars 6 forks source link

тексты разных жанров в private test слиты в один файл #17

Closed victorbocharov closed 4 years ago

victorbocharov commented 4 years ago

Тексты разных жанров слиты в один файл в private test. В public test они были в отдельных файлах. Прошу прокомментировать это различие public и private и цель объединения нескольких жанров в один файл.

TatianaShavrina commented 4 years ago

Единый файл, который нужно предоставить, содержит замешанную золотую выборку, которая при проверке сортируется по 6 различным источникам. Итоги по источникам оцениваются отдельно.

Процедуру проверки можно увидеть тут: https://github.com/dialogue-evaluation/GramEval2020/blob/master/codalab_private_evaluate.py

victorbocharov commented 4 years ago

Спасибо, но это не отвечает на мои вопросы, к сожалению. Их два:

  1. почему разбиение в public и private отличается?

Если превоначально планировалось анализировать все жанры вместе одной моделью, то почему бы не выдать public в том же виде, что private? Тогда было бы время на обсуждение второго вопроса.

  1. с какой целью разные жанры объединены?
TatianaShavrina commented 4 years ago

Спасибо за уточнение! Ответ на ваш вопрос таков: public и private тесты не обязаны быть одинаковыми. В этом году dialogue evaluation первый раз унифицировал процедуру соревнований с помощью codalab, поэтому всем необходимо опробовать процедуру подачи и получить обратную связь - это суть публичного теста. По этой причине участникам были доступны исходные файлы и их золотая разметка.

Задача private test - приблизиться к реальному , боевому применению систем. В нашем соревновании мы пытаемся представить вариативность русского языка максимально широко: ресурсов могло бы быть не 6 (это некоторая условность), а больше, будь у нас больше разметчиков.

Мы как организаторы считаем, что подгон на данных для SOTA - пагубная практика, которая не ведет к разработке генерализирующих хороших моделей.

Мы ждём от участников общие модели. При такой постановке вопроса набрать acc 99% не получится, но можно все равно соревноваться друг с другом и сделать до 100 сабмитов на private test - это очень мягкое условие.

victorbocharov commented 4 years ago

Реальное боевое применение одновременно на текстах 17 века в дореволюционной орфографии и на современных текстах кажется мне странным решением. Это два разных языка на всех уровнях анализа. Если кому-то, действительно, нужно, чтобы было хорошо в обоих случаях, то он сделает две модели и классификатор языка. В этом случае качество обоих компонентов (классификатора и анализатора) будут влиять на оценку.

Реплику про погдон я не понял :(

Мы ждём от участников общие модели.

Я, кажется, это пропустил :(( Где об этом было сказано ранее?

We welcome systems that steadily process all the variety of texts in the Russian language

Это же не то же самое, что "сгенерите одну модель для всех жанров".

С практической точки зрения, я думаю, что ожидания оргкомитета относительно решений должны быть очевидным образом проверяемы.

Каковы критерии общности моделей?

Например, разные выходные слои для разных языков/жанров при общих промежуточных - это ещё одна модель или уже нет?

public и private тесты не обязаны быть одинаковыми.

Мне трудно согласиться с этим утверждением. Кажется разумным ожидать, что они одинаковым образом представляют задачу.

TatianaShavrina commented 4 years ago

Простите, я не вижу предмета для обсуждения в данном вопросе. Я могу помочь с вопросами сабмитов, но пересматривать условия в угоду отдельным участникам мы не будем.

В описании соревнования присутствует текст, что набор данных для теста будет закрытым: During the evaluation phase, submissions are evaluated against the closed test data, which include texts in many genres and from different sources in Russian. Достаточно сложно было предположить, что кто-то захочет делать N систем , затачиваясь на отдельные наборы данных. В любом случае, мы методологически против такого подхода.