bguil / UD-French-discussion

Discussions sur l'harmonisation des Treebanks du français au format UD
0 stars 1 forks source link

Dates #12

Open perrier54 opened 6 years ago

perrier54 commented 6 years ago

Dans UD_Sequoia_trunk, les dates son annotées de façon incohérente. Considérons les dates composées ainsi : [JOURSEM] JOUR MOIS [ANNEE] (par exemple "mercredi 25 octobre 2017"), où JOURSEM et ANNEE sont facultatifs. Dans ce corpus, j'ai repéré 4 situations incohérentes entre elles : 1) nummod (JOURSEM, JOUR), nmod(JOURSEM,MOIS), nummod(JOURSEM,ANNEE) : 4 occurrences 2) nummod (MOIS, JOUR), nummod(MOIS,ANNEE) avec JOURSEM absent: 298 occurrences 3) nummod (JOURSEM, JOUR), nmod(JOURSEM,MOIS), avec ANNEE absente : 6 occurrences 4) nummod (MOIS, JOUR) avec JOURSEM et ANNEE absents : 24 occurrences En plus de l'incohérence entre les 4 situations, la relation nummod est utilisée mal à propos car elle n'exprime pas ici une quantité. Quand on dit "25 octobre", 25 ne quantifie pas le nombre de mois d'octobre, mais signifie le 25 du mois d'octobre. La seule façon d'annoter est la suivante : nmod(JOURSEM, JOUR), nmod(JOUR, MOIS), nmod(MOIS, ANNEE). En effet, un jour est un jour d'un mois et un mois est un mois d'une année. En plus, on garde la même structure quand JOURSEM et ANNEE ne sont pas présents. Il semble que UD-English présente les mêmes problèmes.

sylvainkahane commented 6 years ago

Ici 25 occupe effectivement une position de nom (cf. le 25). Et en français les constructions N N sont toujours N1 N2 avec N2 dépendant de N1. Donc d'accord avec ta structure. Je me demande juste pour la relation, mais nmod me va a priori.

En anglais, on a des constructions N2 N1, d'où le October 25, où je pense que 25 est toujours la tête.

Ca vaudrait le coup de lancer la discussion sur le Github général, surtout qu'il vient d'y avoir plusieurs discussion sur les N N.

perrier54 commented 6 years ago

J'ai mis le commentaire ci-dessous dans la discussion #210 de UniversalDependencies/docs car je ne suis pas d'accord avec la façon dont la discussion a été close: The conclusion of the discussion is that the syntactic relation between the day and the month is language specific: in some languages, the day is the head and other languages, the month is the head. I disagree with this conclusion and I believe that the day as head of a date is a universal property. The philosophy of Universal Dependencies is that the syntactic annotation must be as closed as possible to semantics. If we consider a date as a single semantic unit, this unit represents a day and in the triplet (day, month, year), the semantic head is the day. Therefore, the syntactic head must also be the day, which does not depend on the language. The only contrary argument I found in the discussion is an argument of agreement. In some languages, the day appears as an adjective that agrees with the month. I don’t know Czech and Bulgarian but for German on may consider that “der zweite Mai” is an ellipsis for “der zweite Tag von Mai”. This interpretation is consistent with the view that the day is the head. I have an additional remark; the use of NUMMOD as the label for the dependency month -> day does not follow the definition of the guide : “A numeric modifier of a noun is any number phrase that serves to modify the meaning of the noun with a quantity.” The day represents no quantity. AMOD would be more appropriate.