dialogue-evaluation / GramEval2020

21 stars 6 forks source link

разметка пунктуации (см. #13) #23

Open AlexeySorokin opened 4 years ago

AlexeySorokin commented 4 years ago

Поскольку вопрос из #13 остался без ответа, а пунктуация существенно влияет на качество, продублирую его ещё раз в новой версии: в соответствии с какими правилами определяется вершина для символа пунктуации? Соотносится ли это с чем-нибудь из:

  1. разметкой UD SynTagRus v 2.5
  2. разметкой UD GSD
  3. разметкой одного из файлов обучающей выборки? Какого именно, если да?
  4. Каким-то списком инструкций? Например, верно ли, что если взять накрывающую дугу знака препинания, то он обязательно цепляется к одной из её вершин (это автоматически даёт проективность).
olesar commented 4 years ago

Ответ - 4. Расстановка пунктуации с тесте следует правилам формата UD v2, указанному в инструкции по разметке UD. Ссылка была дана в ответе на вопрос #13, вот она еще раз https://universaldependencies.org/u/dep/punct.html. Запрет на непроективность там описан.

Разметка тестовых данных не следует корпусам, она выполнялась отдельно от проектов их разметки и другой командой. Задачи воспроизвести какой-либо из корпусов train не ставилась.

Больше всего с инструкциями UD в части пунктуации расходится корпус UD-SynTagRus. Часть расхождений была решена в UD-SynTaRus-v2. Сравнение двух версий, возможно, сможет вам помочь.