dialogue-evaluation / GramEval2020

21 stars 6 forks source link

Расхождения в разметке синтаксиса #13

Closed AlexeySorokin closed 4 years ago

AlexeySorokin commented 4 years ago

По аналогии с #12 и опираясь на #11, хотелось бы узнать ответы на следующие вопросы:

  1. Какой алгоритм определения синтаксической вершины символов пунктуации (их много, поэтому ошибка здесь кардинально повлияет на качество системы).
  2. Есть ли систематические отличия от СинТагРуса в разметке синтаксиса.
olesar commented 4 years ago

Есть ли систематические отличия от СинТагРуса в разметке синтаксиса.

Как известно (см. описание данных и предыдущие issues здесь), UD-SynTagRus является автоматически сконвертированной версией ETAP3 -> UD, которая во многом не соответствует текущему стандарту UDv2 и не валидна для скрипта UD. Мы сегодня выкладываем версию, в которой многие расхождения сняты см. #8 . Большое спасибо всем, кто сообщил конкретные замечания. К сожалению, ряд несоответствий остается, прежде всего там, где невозможно построить простых правил. Дальнейшее обсуждение предлагаю вести в ветке #8

@AlexeySorokin @TatianaShavrina @Shnurre

olesar commented 4 years ago

Какой алгоритм определения синтаксической вершины символов пунктуации (их много, поэтому ошибка здесь кардинально повлияет на качество системы).

Не совсем понятен вопрос, алгоритм определения в UD (см. punct или алгоритм работы конвертора? Если последнее, то в оригинальном СинТагРус-е знаки пунктуации не являются узлами дерева, автор конвертора предложил алгоритм их расстановки для UD 1.4, это описано в ее работах. В UD 2 правила расстановки поменялись, что-то конвертор учитывает, что-то нет. Запрет непроективности знаков препинания делает эти правила довольно нетривиальными.