Open AlexeySorokin opened 4 years ago
@AlexeySorokin, да, ошибка, спасибо за замечание. Нашла еще один такой же случай, в новом коммите он поправлен.
Ещё ошибки (расхождения с Синтагрусом):
конструкция не что иное, как:
5 не не PART NEG Polarity=Neg 6 advmod _ _
6 что что PRON WP Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing 0 root _ _
7 иное иной ADJ JJL Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 6 amod _ SpaceAfter=No
8 , , PUNCT , _ 6 punct _ _
9 как как ADP IN _ 10 case _ _
10 свет свет NOUN NN Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing 6 nmod _ _
11 разума разум NOUN NN Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing 10 nmod _ SpaceAfter=No
см. СинТагРус
26 не не PART _ _ 27 advmod _ _
27 кто кто PRON _ Case=Nom 28 nsubj _ _
28 иной иной ADJ _ Case=Nom|Degree=Pos|Gender=Masc|Number=Sing 23 ccomp _ _
29 , , PUNCT _ _ 31 punct _ _
30 как как SCONJ _ _ 31 mark _ _
31 Ленечка Ленечка PROPN _ Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing 28 obl _ _
здесь в разметке групп нет практически ничего общего
метка obl:agent
в СинТагРусе отсустствует.
неверная разметка эллипсиса:
5 `` `` PUNCT `` _ 6 punct _ SpaceAfter=No
6 Харьков Харьков PROPN NNP Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing 4 appos _ _
7 научный научный ADJ JJL Case=Nom|Degree=Pos|Gender=Masc|Number=Sing 6 amod _ _
8 -- -- PUNCT -- _ 6 punct _ _
9 Харькову Харьков PROPN NNP Animacy=Inan|Case=Dat|Gender=Masc|Number=Sing 6 nmod _ _
10 индустриальному индустриальный ADJ JJL Case=Dat|Degree=Pos|Gender=Masc|Number=Sing 9 amod _ SpaceAfter=No
11 ! ! PUNCT . _ 6 punct _ SpaceAfter=No
прикрепление знаков препинания
2 Естественный естественный ADJ JJL Case=Nom|Degree=Pos|Gender=Masc|Number=Sing 3 amod _ _
3 закон закон NOUN NN Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing 6 nsubj _ _
4 -- -- PUNCT -- _ **6 punct _ _
5 не не PART NEG Polarity=Neg 6 advmod _ _
6 что что PRON WP Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing 0 root _ _
7 иное иной ADJ JJL Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 6 amod _ SpaceAfter=No
в СинТагРусе
1 " " PUNCT _ _ 2 punct _ _
2 Мы мы PRON _ Case=Nom|Number=Plur|Person=1 6 nsubj _ _
3 " " PUNCT _ _ 2 punct _ _
**4 - - PUNCT _ _ 2 punct _ _
5 это это PRON _ _ 6 cop _ _
6 я я PRON _ Case=Nom|Number=Sing|Person=1 0 root _ _
неверная разметка сочинительных конструкций (21 слово -- это обычный conj
, по-моему, но точно не parataxis
):
2 Естественный естественный ADJ JJL Case=Nom|Degree=Pos|Gender=Masc|Number=Sing 3 amod _ _
3 закон закон NOUN NN Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing 6 nsubj _ _
4 -- -- PUNCT -- _ 6 punct _ _
5 не не PART NEG Polarity=Neg 6 advmod _ _
6 что что PRON WP Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing 0 root _ _
7 иное иной ADJ JJL Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 6 amod _ SpaceAfter=No
8 , , PUNCT , _ 6 punct _ _
9 как как ADP IN _ 10 case _ _
10 свет свет NOUN NN Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing 6 nmod _ _
11 разума разум NOUN NN Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing 10 nmod _ SpaceAfter=No
12 , , PUNCT , _ 13 punct _ _
13 влитый влить VERB VBNL Animacy=Inan|Aspect=Perf|Case=Nom|Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part|Voice=Pass 10 acl _ _
14 в в ADP IN _ 15 case _ _
15 нас мы PRON PRP Case=Acc|Number=Plur|Person=1 13 obl _ _
16 Богом Бог PROPN NNP Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing 13 obl:agent _ SpaceAfter=No
17 ; ; PUNCT : _ 6 punct _ _
18 посредством посредством ADP IN _ 19 case _ _
19 его он PRON PRP Case=Gen|Gender=Masc|Number=Sing|Person=3 21 obl _ _
20 мы мы PRON PRP Case=Nom|Number=Plur|Person=1 21 nsubj _ _
**21 знаем знать VERB VBC Aspect=Imp|Mood=Ind|Number=Plur|Person=1|Tense=Pres|VerbForm=Fin|Voice=Act 6 **parataxis _ SpaceAfter=No
@olesar Проблема в том, что список неточностей был составлен на примере отличий между автоматической системой и разметкой в выборке, что приводит к мысли, что учиться на тренировочных данных нельзя, поскольку в сложных случаях они не точнее, чем система, обученной на СинТагРусе, и к тому же неконсистентны.
конструкция не что иное, как:
Дерево в UD-SynTagRus пришло из СинТагРус-ИППИ без принципиальных изменений proof, полагаю, авторы руководствовались определенными критериями, разработанным под задачи машинного перевода или отвечающие принципам модели Смысл-Текст. В UD-GSD аналогичный случай рассматривался как спорный, порядка 4 вариантов было предложено. Решили выбрать более стандартное для русского синтаксиса дерево ("иной" является атрибутом, "как X" размечается так же, как в сравнительных конструкциях). NB Ошибка в GSD, правильно так:
9 как как ADP IN _ 10 case _ _
10 свет свет NOUN NN Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing 6 obl _ _
Обобщая, конструкции малого синтаксиса являются узким горлышком, здесь всегда можно ожидать расхождений. Инвентаризация таких конструкций и их интерпретация - отдельная правильная задача, хорошо, если соревнование даст почву для этого.
метка obl:agent в СинТагРусе отсутствует.
скрипт валидации оценивает теги первого уровня, иными словами, obl=obl:agent, это не должно создать проблем (но может дать поле для эксперимента с обучением на тегах первого уровня, в других вопросах). В UD-SynTagRus-v2 они появились спорадически, но не системно. Тег obl:agent проще вытащить из оригинальной разметки ИППИ (впрочем, известно, что один из соавторов конвертора не любит теги второго уровня).
неверная разметка эллипсиса:
Хорошего решения для "конструкций с лозунгами/названиями" в рамках UD2.5 пока не придумано, применение тега orphan дает ошибку скрипта UD (два nsubj в одном предложении), см. дискуссию в репозитории universaldependencies.
прикрепление знаков препинания
Известная проблема, поправлено в S-v2
неверная разметка сочинительных конструкций (21 слово -- это обычный conj, по-моему, но точно не parataxis):
конвертор реагирует на точку запятой как маркер паратаксиса. Согласна с @AlexeySorokin , наличие анафорической связи здесь говорит в пользу conj. Увы, ручной просмотр всех таких деревьев в миллионном корпусе - дело немыслимое.
Является ли ошибкой (по-моему, да), и много ли ошибок вроде
См., например SynTagRus: