dialogue-evaluation / GramEval2020

21 stars 6 forks source link

Ошибки в разметке синтаксиса: #11

Open AlexeySorokin opened 4 years ago

AlexeySorokin commented 4 years ago

Является ли ошибкой (по-моему, да), и много ли ошибок вроде

1   Мечта   мечта   NOUN    _   Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing    4   nsubj   _   _
2   Серёжи  Серёжи  NOUN    _   Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing    1   nmod    _   _
3   -   -   PUNCT   _   _   4   punct   _   _
**4 жить    жить    VERB    _   Aspect=Imp|VerbForm=Inf|Voice=Act   0   **root  _   _
5   без без ADP _   _   6   case    _   _
6   боли    боль    NOUN    _   Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing    4   obl _   SpaceAfter=No
7   😭   😭   SYM _   _   4   discourse   _   _

См., например SynTagRus:

8   их  их  DET _   _   10  det _   _
9   главная главный ADJ _   Case=Nom|Degree=Pos|Gender=Fem|Number=Sing  10  amod    _   _
10  цель    цель    NOUN    _   Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing    0   root    _   _
11  -   -   PUNCT   _   _   12  punct   _   _
12  научиться   научиться   VERB    _   Aspect=Perf|VerbForm=Inf|Voice=Mid  10  csubj   _   _
13  работать    работать    VERB    _   Aspect=Imp|VerbForm=Inf|Voice=Act   12  xcomp   _   _
14  вместе  вместе  ADV _   Degree=Pos  13  advmod  _   _
olesar commented 4 years ago

@AlexeySorokin, да, ошибка, спасибо за замечание. Нашла еще один такой же случай, в новом коммите он поправлен.

AlexeySorokin commented 4 years ago

Ещё ошибки (расхождения с Синтагрусом):

  1. конструкция не что иное, как:

    5   не  не  PART    NEG Polarity=Neg    6   advmod  _   _
    6   что что PRON    WP  Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing   0   root    _   _
    7   иное    иной    ADJ JJL Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 6   amod    _   SpaceAfter=No
    8   ,   ,   PUNCT   ,   _   6   punct   _   _
    9   как как ADP IN  _   10  case    _   _
    10  свет    свет    NOUN    NN  Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing   6   nmod    _   _
    11  разума  разум   NOUN    NN  Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing   10  nmod    _   SpaceAfter=No

    см. СинТагРус

    26  не  не  PART    _   _   27  advmod  _   _
    27  кто кто PRON    _   Case=Nom    28  nsubj   _   _
    28  иной    иной    ADJ _   Case=Nom|Degree=Pos|Gender=Masc|Number=Sing 23  ccomp   _   _
    29  ,   ,   PUNCT   _   _   31  punct   _   _
    30  как как SCONJ   _   _   31  mark    _   _
    31  Ленечка Ленечка PROPN   _   Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing   28  obl _   _

    здесь в разметке групп нет практически ничего общего

  2. метка obl:agent в СинТагРусе отсустствует.

  3. неверная разметка эллипсиса:

    5   ``  ``  PUNCT   ``  _   6   punct   _   SpaceAfter=No
    6   Харьков Харьков PROPN   NNP Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing   4   appos   _   _
    7   научный научный ADJ JJL Case=Nom|Degree=Pos|Gender=Masc|Number=Sing 6   amod    _   _
    8   --  --  PUNCT   --  _   6   punct   _   _
    9   Харькову    Харьков PROPN   NNP Animacy=Inan|Case=Dat|Gender=Masc|Number=Sing   6   nmod    _   _
    10  индустриальному индустриальный  ADJ JJL Case=Dat|Degree=Pos|Gender=Masc|Number=Sing 9   amod    _   SpaceAfter=No
    11  !   !   PUNCT   .   _   6   punct   _   SpaceAfter=No
  4. прикрепление знаков препинания

    2   Естественный    естественный    ADJ JJL Case=Nom|Degree=Pos|Gender=Masc|Number=Sing 3   amod    _   _
    3   закон   закон   NOUN    NN  Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing   6   nsubj   _   _
    4   --  --  PUNCT   --  _   **6 punct   _   _
    5   не  не  PART    NEG Polarity=Neg    6   advmod  _   _
    6   что что PRON    WP  Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing   0   root    _   _
    7   иное    иной    ADJ JJL Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 6   amod    _   SpaceAfter=No

    в СинТагРусе

    1   "   "   PUNCT   _   _   2   punct   _   _
    2   Мы  мы  PRON    _   Case=Nom|Number=Plur|Person=1   6   nsubj   _   _
    3   "   "   PUNCT   _   _   2   punct   _   _
    **4 -   -   PUNCT   _   _   2   punct   _   _
    5   это это PRON    _   _   6   cop _   _
    6   я   я   PRON    _   Case=Nom|Number=Sing|Person=1   0   root    _   _
  5. неверная разметка сочинительных конструкций (21 слово -- это обычный conj, по-моему, но точно не parataxis):

    2   Естественный    естественный    ADJ JJL Case=Nom|Degree=Pos|Gender=Masc|Number=Sing 3   amod    _   _
    3   закон   закон   NOUN    NN  Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing   6   nsubj   _   _
    4   --  --  PUNCT   --  _   6   punct   _   _
    5   не  не  PART    NEG Polarity=Neg    6   advmod  _   _
    6   что что PRON    WP  Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing   0   root    _   _
    7   иное    иной    ADJ JJL Case=Nom|Degree=Pos|Gender=Neut|Number=Sing 6   amod    _   SpaceAfter=No
    8   ,   ,   PUNCT   ,   _   6   punct   _   _
    9   как как ADP IN  _   10  case    _   _
    10  свет    свет    NOUN    NN  Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing   6   nmod    _   _
    11  разума  разум   NOUN    NN  Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing   10  nmod    _   SpaceAfter=No
    12  ,   ,   PUNCT   ,   _   13  punct   _   _
    13  влитый  влить   VERB    VBNL    Animacy=Inan|Aspect=Perf|Case=Nom|Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part|Voice=Pass   10  acl _   _
    14  в   в   ADP IN  _   15  case    _   _
    15  нас мы  PRON    PRP Case=Acc|Number=Plur|Person=1   13  obl _   _
    16  Богом   Бог PROPN   NNP Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing   13  obl:agent   _   SpaceAfter=No
    17  ;   ;   PUNCT   :   _   6   punct   _   _
    18  посредством посредством ADP IN  _   19  case    _   _
    19  его он  PRON    PRP Case=Gen|Gender=Masc|Number=Sing|Person=3   21  obl _   _
    20  мы  мы  PRON    PRP Case=Nom|Number=Plur|Person=1   21  nsubj   _   _
    **21    знаем   знать   VERB    VBC Aspect=Imp|Mood=Ind|Number=Plur|Person=1|Tense=Pres|VerbForm=Fin|Voice=Act  6   **parataxis _   SpaceAfter=No
AlexeySorokin commented 4 years ago

@olesar Проблема в том, что список неточностей был составлен на примере отличий между автоматической системой и разметкой в выборке, что приводит к мысли, что учиться на тренировочных данных нельзя, поскольку в сложных случаях они не точнее, чем система, обученной на СинТагРусе, и к тому же неконсистентны.

olesar commented 4 years ago

конструкция не что иное, как:

Дерево в UD-SynTagRus пришло из СинТагРус-ИППИ без принципиальных изменений proof, полагаю, авторы руководствовались определенными критериями, разработанным под задачи машинного перевода или отвечающие принципам модели Смысл-Текст. В UD-GSD аналогичный случай рассматривался как спорный, порядка 4 вариантов было предложено. Решили выбрать более стандартное для русского синтаксиса дерево ("иной" является атрибутом, "как X" размечается так же, как в сравнительных конструкциях). NB Ошибка в GSD, правильно так:

9   как как ADP IN  _   10  case    _   _
10  свет    свет    NOUN    NN  Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing   6   obl _   _
olesar commented 4 years ago

Обобщая, конструкции малого синтаксиса являются узким горлышком, здесь всегда можно ожидать расхождений. Инвентаризация таких конструкций и их интерпретация - отдельная правильная задача, хорошо, если соревнование даст почву для этого.

olesar commented 4 years ago

метка obl:agent в СинТагРусе отсутствует.

скрипт валидации оценивает теги первого уровня, иными словами, obl=obl:agent, это не должно создать проблем (но может дать поле для эксперимента с обучением на тегах первого уровня, в других вопросах). В UD-SynTagRus-v2 они появились спорадически, но не системно. Тег obl:agent проще вытащить из оригинальной разметки ИППИ (впрочем, известно, что один из соавторов конвертора не любит теги второго уровня).

olesar commented 4 years ago

неверная разметка эллипсиса:

Хорошего решения для "конструкций с лозунгами/названиями" в рамках UD2.5 пока не придумано, применение тега orphan дает ошибку скрипта UD (два nsubj в одном предложении), см. дискуссию в репозитории universaldependencies.

olesar commented 4 years ago

прикрепление знаков препинания

Известная проблема, поправлено в S-v2

olesar commented 4 years ago

неверная разметка сочинительных конструкций (21 слово -- это обычный conj, по-моему, но точно не parataxis):

конвертор реагирует на точку запятой как маркер паратаксиса. Согласна с @AlexeySorokin , наличие анафорической связи здесь говорит в пользу conj. Увы, ручной просмотр всех таких деревьев в миллионном корпусе - дело немыслимое.