dialogue-evaluation / GramEval2020

21 stars 6 forks source link

Расхождения в разметке морфологии. #12

Open AlexeySorokin opened 4 years ago

AlexeySorokin commented 4 years ago

Уважаемые организаторы, не могли бы вы указать все отличия стандарта разметки соревнования от разметки SynTagRus, потому что большинство систем обучались именно на SynTagRus и тем самым следуют его аннотации. Пока найдены следующие отличия (на примере файла GramEval2020-GSD-train.conllu):

  1. у некоторых прилагательных размечена одушевлённость:
    5   за  за  ADP IN  _   7   case    _   _
    **6 новый   новый   ADJ JJL **Animacy=Inan|Case=Acc|Degree=Pos|Gender=Masc|Number=Sing  7   amod    _   _
    7   клуб

    но у некоторых -- нет:

    2   изучение    изучение    NOUN    NN  Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing   5   obl _   _
    **3 двойной двойной ADJ JJL **Case=Gen|Degree=Pos|Gender=Fem|Number=Sing    4   amod    _   _
    4   специализации   специализация   NOUN    NN  Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing    2   nmod    _   _
  2. порядковые числительные считаются прилагательными (upos=ADJ) и размечены по признакам прилагательного
    **15    7   7   **ADJ   ORD Case=Gen|Degree=Pos|Gender=Neut|Number=Sing 10  obl _   _
    16  января  январь  NOUN    NN  Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing   15  flat    _   _

    в СинТагРусе как минимум часть аналогичных примеров размечена как NUM

  3. у количественных числительных размечен падеж и NumType=Card
  4. у некоторых глаголов (быть, стать) не размечен залог
  5. у местоимений что и который размечены все признаки.
AlexeySorokin commented 4 years ago

Могли бы вы ответить по перечисленным расхождениям и указать то, что было упущено или подтвердить, что других систематических отличий нет.

olesar commented 4 years ago

у некоторых прилагательных размечена одушевлённость:

В UD 2.0 у прилагательных одушевленность размечается в тех формах Case=Acc, где различаются две формы, согласуемые с одушевлённой вершиной (вижу большого человека) и с неодушевленной (вижу большой дом). У прилагательных Case=Acc, Gender=Fem, Number=Sing такой пометы не ставится (форма "большую" не зависит от согласования, отличаясь от Nom и Gen), у остальных прилагательных ставится. То же касается DET.

AlexeySorokin commented 4 years ago

В UD 2.0 у прилагательных одушевленность размечается в тех формах Case=Acc, где различаются две формы, согласуемые с одушевлённой вершиной (вижу большого человека) и с неодушевленной (вижу большой дом).

Тем не менее обучающая выборка GSD-train одержит 8 примеров DET или ADJ не в аккузативе с размеченной одушевлённостью. Это ошибка разметки?

olesar commented 4 years ago

Да, ошибка. Ручная полнотекстовая разметка часто страдает от решений, где разметчику нужно помнить несколько правил. Второй источник - изменение частеречного класса при редактировании разметки (NOUN -> ADJ, одушевленность убрать забыли).

AlexeySorokin commented 4 years ago

В GSD иностранные имена собственные размечены как X, в остальных подкорпусах как PROPN, на какую из разметок ориентироваться?

olesar commented 4 years ago

Добрый день, четких указаний в UD на это нет, на практике в ручной аннотации применяется критерий (не)освоенности.Иностранное имя собственное, написанное кириллицей или имеющее русские окончания (Veber-а) трактуется как русское, с пометой PROPN и грамматическими пометами, если их возможно установить. Заимствование, написанное арабским, греческим и прочими шрифтами, размечается как X Foreign=Yes.В латинице так же, но исключением могут быть слова, включенные в культуру и контекст,ср. "работал на Adidas" (как правило, это название брендов и мероприятий).16.02.2020, 12:14, "AlexeySorokin" notifications@github.com:В GSD иностранные имена собственные размечены как X, в остальных подкорпусах как PROPN, на какую из разметок ориентироваться?

—You are receiving this because you commented.Reply to this email directly, view it on GitHub, or unsubscribe. -- Olga Lyashevskaya School of Linguistics, Faculty of Humanities& Linguistic Convergence LabHigher School of Economics, Moscow Dept. of Corpus Linguistics and Linguistic PoeticsVinogradov Institute of the Russian Language

AlexeySorokin commented 4 years ago

@olesar Вы не ответили на вопрос: я вижу в тестовой выборке предложение с иностранным именем собственным, как я должен его размечать? Разные подмножества обучающей выборки делают это по-разному, как правильно?

olesar commented 4 years ago

Уточню еще раз: однозначного соответствия Latinitsa -> X или Latinitsa -> PROPN в принципе нет.Проверила по обучающим выборкам: GSD всегда выбирает X (но и контекстов освоенности я там не вижу, это жанр wiki), Taiga-social PROPN (но обратите внимание, что там много контекстов типа "каверы на Billy Jean и Джо Дассена" или "новенький IPHONE", в SynTagRus-v2 и так, и так.Ответ: не "подмножества делают", а "подмножества представляют разные жанры, предполагающие разную степень освоенности и включенности в окружающий русский контекст".Но безусловно, факторы субъективности разметчиков и степени ручной перепроверки тут тоже играют роль, для разных выборок они разные.16.02.2020, 18:19, "AlexeySorokin" notifications@github.com:@olesar Вы не ответили на вопрос: я вижу в тестовой выборке предложение с иностранным именем собственным, как я должен его размечать? Разные подмножества обучающей выборки делают это по-разному, как правильно?

—You are receiving this because you were mentioned.Reply to this email directly, view it on GitHub, or unsubscribe. -- Olga Lyashevskaya School of Linguistics, Faculty of Humanities& Linguistic Convergence LabHigher School of Economics, Moscow Dept. of Corpus Linguistics and Linguistic PoeticsVinogradov Institute of the Russian Language

AlexeySorokin commented 4 years ago

Боюсь, Вы не совсем правы: разные подмножества предоставляют разную разметку не потому, что эти предложения разных жанров, а потому что разные исходные стандарты разметки. И не раскрывать, какой из них будет выбран в тестовой выборке, не слишком честно по отношению к участникам, поскольку совершенно не влияющее на качество модели решение даст разницу в несколько процентов по upos, поскольку в новостных текстах названия латиницей могут встречаться едва ли не в каждом втором предложении. Чтобы не возникло подобной несправедливости, предлагаю зафиксировать одно максимально непротиворечивое решение (это же касается и различия PROPN/NOUN, которое столь же бессистемно).