Open olesar opened 4 years ago
Within the framework of GramEval2020, a new version of UD_SynTagRus - UDv2.5-valid, with rule-based and partial manual fixes, is made available: link.
The log of changes follows below.
cat GramEval2020-SynTagRus-train_v2.conllu | python3 validate_no_meta.py --lang ru --no-tree-text --max-err=0 PASSED
Levels of change:
Убраны вторичные узлы и зависимости Ретокенизированы г., в., гг., вв., с., др., руб. (точка входит в токен) Ручная правка conj->list, nummod:entity->appos (кроме #,№,номер), flat - месяц в датах 29 августа (::год - nmod::)
18 в в ADP _ _ 22 case _ _
19 1960 1960 NUM _ _ 22 nummod _ _
20 - - PUNCT _ _ 21 punct _ _
21 1970-е 1970-е ADJ _ Animacy=Inan|Case=Acc|Degree=Pos|Number=Plur 19 nummod _ _
22 годы год NOUN _ Animacy=Inan|Case=Acc|Gender=Masc|Number=Plur 15 obl _ _
19 Жаком Жак PROPN _ Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing 18 appos _ _
20 Бальма Бальма PROPN _ Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing 19 flat:name _ _
21 ( ( PUNCT _ _ 22 punct _ _
22 Jacques Jacques PROPN _ Foreign=Yes 19 flat:foreign _ _
23 Balmat Balmat PROPN _ Foreign=Yes 19 flat:foreign _ _
24 , , PUNCT _ _ 25 punct _ _
25 1762 1762 NUM _ _ 19 conj _ _
26 - - PUNCT _ _ 27 punct _ _
27 1834 1834 NUM _ _ 25 nummod _ _
28 ) ) PUNCT _ _ 25 punct _ _
Выше 6000-7000 м - nmod -> obl
Fixed: не только.. но/а и, (как…) так и, (не столько..) сколько.SCONJ, сколько ни (учись), не столько.. Сколько, коль скоро, ну и (еще столько) Degree=Cmp у “больше”, “меньше” у ADV и NUM, морф. Признаки у NUM столько, сколько, пол и др. _ nummod:gov VS nummod Млн, тыс, млрд - nummod (развернуть связь) -nummod:entity оставить только у №, №№ ADV obl->advmod, кроме fixed Грам пометы у PROPN Леммы у PROPN pluralia tantum Большой, Западный как PROPN -> ADJ "это" cop -> expl в релевантных контекстах
Проблема: второй аргумент глагола (!Case=Acc) часто размечтается как obl, вместо obj
Gen+
При отрицании (или obl->nsubj)
(бояться|касаться|коснуться|достичь|достигнуть|достигать|достигаться|лишиться|лишаться|лишить|лишать|страшиться|пугаться|стоить|требовать|добиваться|добиться|заслужить|заслуживать|ждать|ожидать|дождаться|дожидаться|добыть|добывать|хотеть|захотеть|жаждать|алкать|искать|желать|пожелать|хотеть|просить|запросить|запрашивать|спросить|спрашивать|придерживаться|держаться|стесняться|постесняться|хватить|хватать|избежать|избегать|избегнуть|хотеться|стыдиться|опасаться|остерегаться|пугаться|испугаться|постыдиться|недосчитаться|удостоиться|наесться|напиться|накупить|добавить|набраться|набираться|набрать|набирать|чураться)
Ins+ (владеть|обладать|управлять|махать|шевелить|топать|бренчать|звенеть|пользоваться|руководить|обзавестись|распоряжаться|сопровождаться) obl -> obj
Obl,nummod,acl -> xcomp (второй аргумент глаголов являться|становиться|явиться|стать|служить|оказаться|оказываться|послужить|назначить|назначать|считать|считаться|выглядеть|полагаться|называть|назвать|называться|работать|проработать|определить|оставаться|остаться|восприниматься|сделаться|выглядеть|делиться)
Сам,оба: acl при глаголе вне контакта с субъектом (плавающий квантификатор)
Foreign:flat - убрать у первого слова в Foreign=Yes, от греческого dia bolo - от и греческого зависят от хозяина группы (происходит)
Баг с csubj (только?) в конструкции типа “надо включить”, если ранее есть Foreign=Yes: включить размечается как flat:foreign, а foreign как csubj
Чей-то, такой-то ADJ -> DET, amod -> det
Компаунды южно, северо, волго, 1000-страничный и т.п. Hyph=Yes compound (ср. Чешский UD-PDT)
NOUN -> obl → NOUN -> nmod
нет VERB (в части релевантных контекстов) Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
Внутри ADV -> obl → внутри ADP case
Хоть PART
ADV - obl -> advmod
типа тип NOUN _ Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing → типа типа ADP case (перевесить стрелки)
ADJ + (января|февраля|марта|апреля|мая|июня|июля|августа|сентября|октября|ноября|декабря) - flat
Части речи, морф. признаки: Тоже, также: ADV, Degree=Pos (v.2.5 PART _ ) друг друга: PRON, Case=..., DepRel: fixed на втором элементе, хозяин первый (v.2.5 NOUN, Animacy,Case,Gender,Number) сегодня NOUN -> ADV Degre=Pos (кроме контекстов на сегодня) нельзя VERB Polarity=Neg некого нечего VERB Case=...|Polarity=Neg (повернуть стрелки) (некого|нечего|некому|нечему|некем|нечем) + не PR ком, не PR чем нечего, нечего NOUN|PRON|ADV -> VERB… Polarity=Neg
чего PRON в релевантных контекстах ADV Degree=Pos ('зачем?') Морф. признаки, добавить: Mood=Cnd у бы, б, чтобы, чтоб, дабы (AUX) (v.2.5 AUX _) -- кроме чтобы/чтоб/дабы + Inf Animacy, Gender, Number как классифицирующие признаки у PRON (кто, что) кто PRON Animacy=Anim|Case=...|Gender=Masc|Number=Sing (v.2.5 Case=...) что PRON Animacy=Inan|Case=...|Gender=Neut|Number=Sing (v.2.5 Case=...) один - добавить пометы Animacy, Gender,Number
Связи Вершины у :, - (тире) - вершина следующей клауза (v2.5 - у предыдущей)
Морф. признаки, заменить: VerbForm=Part|Voice=Mid -> VerbForm=Part|Voice=Act
Леммы: форма во, ко, передо (ADP) -> лемма = форма (v.2.5 в, к, перед) Форма достигнуть/постигнуть - лемма достигнуть/постигнуть (v5 - достичь) нечего: незачем -> нечего (1 случай) исправлены леммы совершенного вида
Known issues (расхождения между UD-SynTagRus и UD-GSD)
VerbForm=Fin|Voice=Pass -> VerbForm=Fin|Voice=Mid
VerbForm=Inf|Voice=Pass -> VerbForm=Inf|Voice=Mid
VerbForm=Conv|Voice=Pass -> VerbForm=Conv|Voice=Mid
Дорогие коллеги, мы подготовили для вас отдельную версию корпуса UD-SynTagRus, в которой сняты многие расхождения между стандартом UDv2.5 (в котором размечены тестовые данные) и автоматически конвертированным трибуном, представленном в репозитории UD. Мы преследовали три задачи:
Мы не гарантируем, что результаты будут выше, так как в UDv2.5 больше классов соответствий между формой и тегами (часть решений, например, противопоставление obj~obl, определяется семантическими, а не только формальными критериями), но предлагаем вам попробовать эту версию.
UD_SynTagRus is currently not valid according to UD guidelines and validation.py script. SynTagRus-GramEval2020 version is -- UDv2-valid -- lemmas improved -- features improved -- arcs corrected -- minor tokenisation issues fixed (more tbd)