dialogue-evaluation / GramEval2020

21 stars 6 forks source link

#8. A UDv.2-valid version of SynTagRus #8

Open olesar opened 4 years ago

olesar commented 4 years ago

UD_SynTagRus is currently not valid according to UD guidelines and validation.py script. SynTagRus-GramEval2020 version is -- UDv2-valid -- lemmas improved -- features improved -- arcs corrected -- minor tokenisation issues fixed (more tbd)

olesar commented 4 years ago

Within the framework of GramEval2020, a new version of UD_SynTagRus - UDv2.5-valid, with rule-based and partial manual fixes, is made available: link.

The log of changes follows below.

cat GramEval2020-SynTagRus-train_v2.conllu | python3 validate_no_meta.py --lang ru --no-tree-text --max-err=0 PASSED

Levels of change:

olesar commented 4 years ago

Убраны вторичные узлы и зависимости Ретокенизированы г., в., гг., вв., с., др., руб. (точка входит в токен) Ручная правка conj->list, nummod:entity->appos (кроме #,№,номер), flat - месяц в датах 29 августа (::год - nmod::)

18  в   в   ADP _   _   22  case    _   _
19  1960    1960    NUM _   _   22  nummod  _   _
20  -   -   PUNCT   _   _   21  punct   _   _
21  1970-е  1970-е  ADJ _   Animacy=Inan|Case=Acc|Degree=Pos|Number=Plur    19  nummod  _   _
22  годы    год NOUN    _   Animacy=Inan|Case=Acc|Gender=Masc|Number=Plur   15  obl _   _
19  Жаком   Жак PROPN   _   Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing   18  appos   _   _
20  Бальма  Бальма  PROPN   _   Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing   19  flat:name   _   _
21  (   (   PUNCT   _   _   22  punct   _   _
22  Jacques Jacques PROPN   _   Foreign=Yes 19  flat:foreign    _   _
23  Balmat  Balmat  PROPN   _   Foreign=Yes 19  flat:foreign    _   _
24  ,   ,   PUNCT   _   _   25  punct   _   _
25  1762    1762    NUM _   _   19  conj    _   _
26  -   -   PUNCT   _   _   27  punct   _   _
27  1834    1834    NUM _   _   25  nummod  _   _
28  )   )   PUNCT   _   _   25  punct   _   _

Выше 6000-7000 м - nmod -> obl

Fixed: не только.. но/а и, (как…) так и, (не столько..) сколько.SCONJ, сколько ни (учись), не столько.. Сколько, коль скоро, ну и (еще столько) Degree=Cmp у “больше”, “меньше” у ADV и NUM, морф. Признаки у NUM столько, сколько, пол и др. _ nummod:gov VS nummod Млн, тыс, млрд - nummod (развернуть связь) -nummod:entity оставить только у №, №№ ADV obl->advmod, кроме fixed Грам пометы у PROPN Леммы у PROPN pluralia tantum Большой, Западный как PROPN -> ADJ "это" cop -> expl в релевантных контекстах

Проблема: второй аргумент глагола (!Case=Acc) часто размечтается как obl, вместо obj Gen+ При отрицании (или obl->nsubj) (бояться|касаться|коснуться|достичь|достигнуть|достигать|достигаться|лишиться|лишаться|лишить|лишать|страшиться|пугаться|стоить|требовать|добиваться|добиться|заслужить|заслуживать|ждать|ожидать|дождаться|дожидаться|добыть|добывать|хотеть|захотеть|жаждать|алкать|искать|желать|пожелать|хотеть|просить|запросить|запрашивать|спросить|спрашивать|придерживаться|держаться|стесняться|постесняться|хватить|хватать|избежать|избегать|избегнуть|хотеться|стыдиться|опасаться|остерегаться|пугаться|испугаться|постыдиться|недосчитаться|удостоиться|наесться|напиться|накупить|добавить|набраться|набираться|набрать|набирать|чураться) Ins+ (владеть|обладать|управлять|махать|шевелить|топать|бренчать|звенеть|пользоваться|руководить|обзавестись|распоряжаться|сопровождаться) obl -> obj Obl,nummod,acl -> xcomp (второй аргумент глаголов являться|становиться|явиться|стать|служить|оказаться|оказываться|послужить|назначить|назначать|считать|считаться|выглядеть|полагаться|называть|назвать|называться|работать|проработать|определить|оставаться|остаться|восприниматься|сделаться|выглядеть|делиться) Сам,оба: acl при глаголе вне контакта с субъектом (плавающий квантификатор) Foreign:flat - убрать у первого слова в Foreign=Yes, от греческого dia bolo - от и греческого зависят от хозяина группы (происходит)
Баг с csubj (только?) в конструкции типа “надо включить”, если ранее есть Foreign=Yes: включить размечается как flat:foreign, а foreign как csubj Чей-то, такой-то ADJ -> DET, amod -> det Компаунды южно, северо, волго, 1000-страничный и т.п. Hyph=Yes compound (ср. Чешский UD-PDT) NOUN -> obl → NOUN -> nmod нет VERB (в части релевантных контекстов) Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act Внутри ADV -> obl → внутри ADP case Хоть PART ADV - obl -> advmod типа тип NOUN _ Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing → типа типа ADP case (перевесить стрелки) ADJ + (января|февраля|марта|апреля|мая|июня|июля|августа|сентября|октября|ноября|декабря) - flat

Части речи, морф. признаки: Тоже, также: ADV, Degree=Pos (v.2.5 PART _ ) друг друга: PRON, Case=..., DepRel: fixed на втором элементе, хозяин первый (v.2.5 NOUN, Animacy,Case,Gender,Number) сегодня NOUN -> ADV Degre=Pos (кроме контекстов на сегодня) нельзя VERB Polarity=Neg некого нечего VERB Case=...|Polarity=Neg (повернуть стрелки) (некого|нечего|некому|нечему|некем|нечем) + не PR ком, не PR чем нечего, нечего NOUN|PRON|ADV -> VERB… Polarity=Neg

чего PRON в релевантных контекстах ADV Degree=Pos ('зачем?') Морф. признаки, добавить: Mood=Cnd у бы, б, чтобы, чтоб, дабы (AUX) (v.2.5 AUX _) -- кроме чтобы/чтоб/дабы + Inf Animacy, Gender, Number как классифицирующие признаки у PRON (кто, что) кто PRON Animacy=Anim|Case=...|Gender=Masc|Number=Sing (v.2.5 Case=...) что PRON Animacy=Inan|Case=...|Gender=Neut|Number=Sing (v.2.5 Case=...) один - добавить пометы Animacy, Gender,Number

Связи Вершины у :, - (тире) - вершина следующей клауза (v2.5 - у предыдущей)

Морф. признаки, заменить: VerbForm=Part|Voice=Mid -> VerbForm=Part|Voice=Act

Леммы: форма во, ко, передо (ADP) -> лемма = форма (v.2.5 в, к, перед) Форма достигнуть/постигнуть - лемма достигнуть/постигнуть (v5 - достичь) нечего: незачем -> нечего (1 случай) исправлены леммы совершенного вида

olesar commented 4 years ago

Known issues (расхождения между UD-SynTagRus и UD-GSD)

olesar commented 4 years ago

Дорогие коллеги, мы подготовили для вас отдельную версию корпуса UD-SynTagRus, в которой сняты многие расхождения между стандартом UDv2.5 (в котором размечены тестовые данные) и автоматически конвертированным трибуном, представленном в репозитории UD. Мы преследовали три задачи:

Мы не гарантируем, что результаты будут выше, так как в UDv2.5 больше классов соответствий между формой и тегами (часть решений, например, противопоставление obj~obl, определяется семантическими, а не только формальными критериями), но предлагаем вам попробовать эту версию.