bguil / UD-French-discussion

Discussions sur l'harmonisation des Treebanks du français au format UD
0 stars 1 forks source link

Annotations des "composés" syntaxiquement réguliers #18

Open bguil opened 6 years ago

bguil commented 6 years ago

⚠️ Exemples mis à jour après le commentaire suivant de @sylvainkahane

Quand les "composés" ont une structure syntaxique interne régulière, on veut annoter cette syntaxe. Deux cas peuvent se produirent :

  1. Très souvent, le composé complet a un UPOS qui est différent de celui de la tête syntaxique et on note cela avec de nouveau traits. Ce sont les cas notés SYNT dans le FramaCalc.
  2. S'il n'y pas de changement de UPOS entre la tête du composé et le composé lui-même, tout est donc syntxiquement régulier et il n'est pas nécessaire de faire quoi que ce soit. Ça correspond en gros au NO du FramaCalc. Par exemple, peu après, par suite.

Des exemples d'annotation de SYNT.

Comme pour les fixed, pour pouvoir traiter les coordinations, le de final n'est pas inclus dans le composé.

# text = Il est en train de venir
1   Il  _   PRON    _   _   4   nsubj   _   _
2   est _   AUX _   _   4   cop _   _
3   en  _   ADP _   _   4   case    _   Cpd=Yes
4   train   _   NOUN    _   _   0   root    _   MWE_POS=ADV
5   de  _   ADP _   _   6   mark    _   _
6   venir   _   VERB    _   _   4   xcomp   _   _
screen shot 2018-04-20 at 09 54 25
# text = Il est en cours de traitement
1   Il  _   PRON    _   _   4   nsubj   _   _
2   est _   AUX _   _   4   cop _   _
3   en  _   ADP _   _   4   case    _   Cpd=Yes
4   cours   _   NOUN    _   _   0   root    _   MWE_POS=ADV
5   de  _   ADP _   _   6   mark    _   _
6   traitement  _   NOUN    _   _   4   obl:arg _   _
screen shot 2018-04-20 at 09 55 09
# text = en provenance de Paris et de Nancy
1   en  _   ADP _   _   2   case    _   Cpd=Yes
2   provenance  _   NOUN    _   _   4   advmod  _   MWE_POS=ADV
3   de  _   ADP _   _   4   case    _   _
4   Paris   _   PROPN   _   _   0   root    _   _
5   et  _   CC  _   _   7   cc  _   _
6   de  _   ADP _   _   7   case    _   _
7   Nancy   _   PROPN   _   _   4   conj    _   _
screen shot 2018-04-20 at 09 51 19

On traite de la même façon :

Un exemple d'annotation de NO

# text = Jean vient afin de travailler
1   Jean    _   PROPN   _   _   2   nsubj   _   _
2   vient   _   VERB    _   _   0   root    _   _
3   afin    _   ADV _   _   5   advmod  _   _
4   de  _   ADP _   _   5   mark    _   _
5   travailler  _   VERB    _   _   2   xcomp   _   _
screen shot 2018-04-19 at 14 24 33
sylvainkahane commented 6 years ago

(il y a qq coquilles dans tes exemples, notamment le nsubj qui ne doit pas être sur la copule.) Ca serait quoi le critère pour traiter

  1. en provenance comme un dépendant (advmod) et
  2. en cours comme une tête (avec un obl:arg comme dépendant) ? Dans notre article TLT on avait aussi discuté des exemples comme ça (in front of the house) et on avait proposé les deux analyses au choix. On avait utilisé case:complex dans le cas 1, mais je c'est mieux d'utiliser advmod effectivement. Même remarque que pour les ADV "déterminants": est-ce qu'il ne faut pas un trait sur advmod pour assurer la convertibilité ? (le trait complex qu'on propose me semble pas génial avec le recul, puisque l'advmod en question n'est pas nécessairement complex, cf. autour de N, out of Africa).
perrier54 commented 6 years ago

Sur la différence entre en provenance et en cours, la première locution se comporte comme une préposition donc dans en provenance de X, il est logique que X soit la tête. Par contre, en cours se comporte comme un adjectif. On peut dire : ce travail est en cours. L'expression peut prendre un argument nominal introduit par de et dans ce cas il est logique que la tête soit cours. Pour ce qui est de marquer les ADV déterminants, je me demande si c'est nécessaire compte tenu qu'on a le motif ADV suivi de la préposition de, ce qui permet de les détecter.

sylvainkahane commented 6 years ago

les deux peuvent modifier un nom:

un livre en cours de lecture un train en provenance de Nancy

La différence que tu soulignes c'est le coté obligatoire ou facultatif du complément. Mais si tu prends en compte cette différence du va devoir traiter comme tête aussi autour, à coté, en face, etc. Moi je les traiterais tous pareils, que le complément soit obligatoire ou non.

perrier54 commented 6 years ago

C'est vrai que la frontière est difficile à établir et c'est plus simple d'annoter de façon uniforme donc dans une expression de la forme en + nom + de + complément , je choisirais comme tête nom avec une dépendance de nom vers complément et une autre de complément vers de. en provenance de Nancy : provenance -nmod -> Nancy en attente de son train : attente - nmod -> train en attente de venir : attente - acl -> venir

mcdm commented 6 years ago

Est-ce qu'on ne peut pas dire que la différence entre "en provenance de" et "en cours de", c'est que on peut éliminer "en provenance"? Mais je suis d'accord que c'est plus facile de les traiter tous de la même façon.

Pour "en train de", je mettrais plutôt "acl" que "xcomp" pour le complément.

mcandito commented 6 years ago

Salut,

Je suis aussi pour traiter de manière uniforme les séquences de la forme prep + nom + de + complément, avec le nom comme tête, parce que c'est ce qui me semble le plus cohérent avec un codage régulier de la syntaxe.

Mais je suis pour tagger ADJ celles qui peuvent modifier un nom, et pas ADV "en provenance" = ADJ prenant un complément obligatoire Même le "en train" serait alors taggé ADJ (cf. les gens en train de téléphoner ont plus d'accident)

En effet, on n'a pas il me semble d'adverbe épithète

Pour la remarque de Marie-Catherine (Pour "en train de", je mettrais plutôt "acl" que "xcomp" pour le complément.), il semble qu'aucune relation n'est parfaite d'après les guidelines actuels

Visiblement on a actuellement déjà étendu acl pour les compléments verbaux d'un nom, donc acl effectivement (est-ce que c'est un débat dans UD?)

sylvainkahane commented 6 years ago

Oui ADJ, très bien.

Pour la relation du complément, la question est intéressante, je trouve. Tout dépend si on considère que le gouverneur est le nom ou le MWE. Vue du point de vue de MTT, la question est de savoir si les relations de UD relèvent de la syntaxe de surface ou de la syntaxe profonde. Vu le choix fait pour les mots outils, j'ai fortement tendance à penser que UD est dans l'esprit de la syntaxe profonde. Et donc à privilégier la catégorie du MWE. Si je reprends les exemples, "train" seul ne peut pas prendre de complément en "de Vinf". C'est clairement un complément de "en train" et donc xcomp. En plus c'est un peu plus riche comme annotation puisque xcomp s'oppose à ccomp, et donc on annote le fait qu'il y a bien montée.

perrier54 commented 6 years ago

Pour la catégorie de en provenance et en train, je garderais ADV du fait qu'il n'y a pas d'accord avec le nom auquel l'expression se rapporte et il y a bien des adverbes épithètes : bien, mal. Pour ce qui est du complément de en train , que l'on considère l'expression comme ADJ ou ADV, la règle de UD est qu'il faut mettre XCOMP. C'est le même chose que pour une personne apte à conduire; la dépendance de apte vers conduire est XCOMP.

sylvainkahane commented 6 years ago

On a réussi à se mettre d'accord sur la structure (train est la tête) et sur les relations (xcomp, car ça dépend de en train). C'est l'essentiel. On peut aussi ajouter la POSMWE et on hésite entre ADJ et ADV. Il faut surtout décider des critères. J'ai tendance à préférer ADJ parce que en train de Vinf peut modifier librement un nom (un drapeau en train de flotter au vent, une idée en train de s'imposer), mais pas un verbe (*il parle en train de dormir).