bguil / UD-French-discussion

Discussions sur l'harmonisation des Treebanks du français au format UD
0 stars 1 forks source link

Amalgames #1

Open bguil opened 7 years ago

bguil commented 7 years ago

⚠️ Résume d'une discussion dans le Google doc : voir le détail.

La question est de savoir s'il faut défaire les amalgames (par exemple, au ▶️ à + le). Actuellement, sont défaits dans les données UD-2.0 : au, du, des, auquel, duquel (et leurs flexions).

Le principal problème est posé par du et des dont le traitement peut dépendre de la syntaxe :

Je mange du pain (article partitif) Le chat du voisin (amalgame de préposition de et du déterminant le)

Il semble y avoir un consensus pour les traiter tous les deux de la même façon… mais pas sur le façon de les traiter !

Proposition Sylvain & Kim

  1. Ne pas défaire les amalgames. On peut ajouter un trait "amalgam" éventuellement.
  2. Les traiter tous comme des PREP, y compris ceux qu’on analyse traditionnellement comme des DET. La différence peut être saisi au niveau de la relation (det vs case) si on le souhaite. (Rmq: pour Orféo, nous avons la même analyse syntaxique pour tous les des.)

Réponse Guy

pas d'accord. Garder les amalgames rompt avec la régularité de traitement de la syntaxe et peut entraîner une perte d'information si on traite par exemple au comme une préposition; l'information sur le déterminant est perdue. La meilleure façon est de défaire systématiquement tous les amalgames, y compris du quand il est partitif. Cela se tient linguisitiquement (je mange de la purée et de le bœuf) et ne nécessite aucune analyse avant la segmentation.

Réponse Marie

je trouve aussi que désamalgamer tous les du et des serait le mieux, et je trouve également problématique de traiter le partitif comme un det, donc je serais plutôt faire du partitif un det composé

sylvainkahane commented 7 years ago

Un des problèmes des amalgames est de dans :

il parle de chevaux

C'est d'une certaine façon un amalgame de + des, mais on ne peut pas le désalgamer puisque des est aussi un amalgame.

Donc dans tous les cas, on se retrouve avec un cas où le nom n'aura pas de de déterminant.

Du coup, c'est pas plus gênant de ne pas avoir de DET dans:

il parle des chevaux

et de traiter des comme un ADP.

Il y aussi en comme amalgame:

il est allé au Chili, en Italie et en France = il est allé à le Chili et à l' Italie et à la France

sylvainkahane commented 7 years ago

Un des problèmes des amalgames est de dans :

il parle de chevaux

C'est d'une certaine façon un amalgame de + des, mais on ne peut pas le désalgamer puisque des est aussi un amalgame.

Donc dans tous les cas, on se retrouve avec un cas où le nom n'aura pas de de déterminant.

Du coup, c'est pas plus gênant de ne pas avoir de DET dans:

il parle des chevaux

et de traiter des comme un ADP.

Il y aussi le problème de en. On peut vouloir le traiter comme amalgame:

il est allé au Chili, en Italie et en France = il est allé à le Chili et à l' Italie et à la France

Mais en même temps, à la ne s'amalgame pas dans d'autres contextes:

il est allé à la piscine

Mais si on ne désalmagame pas en France on doit accepter que dans ce contexte, France s'utilise sans l'article défini.

Tout ça pour dire qu'on aura de toutes façons des cas où les noms sont utilisés sans déterminant. Donc c'est pas très gênant de dire que du est une préposition où on n'a pas de déterminant ensuite, comme en dans en France.

bguil commented 5 years ago

Pour en finir avec les amalgames ?

Proposition d'harmonisation des amalgames issue dune discussion du 6 juin 2019 (@sylvainkahane, @kimgerdes, @perrier54 et @bguil).

On souhaite avoir une tokenisation qui ne dépend pas de l'analyse syntaxique et donc traiter tous les du de la même façon). Il y a des cas où on pourrait considérer qu'on a des amalgames mais qui ne sont pas traités ainsi actuellement (cf. plus haut les exemples de @sylvainkahane : il parle de chevaux, en France, …).

La proposition est donc de traiter les cas suivants (et uniquement ceux-là) systématiquement comme des amalgames :

La différence entre les deux du se fait par l'annotation:

pareil pour différence entre les deux des :

On a donc l'avantage d'avoir une segmentation qui ne dépend plus de l'analyse de la phrase. Un des inconvénients est qu'on propose des analyses qui peuvent paraître étranges dans des enfants jouent : 1 on considère des comme un amalgame, c'est-à-dire 2 tokens 2 on indique par la relation fixed que les 2 tokens peuvent être vus comme une seule unité.

dseddah commented 5 years ago

Salut les gens, dites en regardant vite fait les corpus du français hier, j'ai pas pu m'empêcher de remarquer que le French_Spoken n'avait pas défait ses amalgames, le rendant donc de facto incompatible avec les autres corpus French_UD qu'on maintient tous (sans même parler de ces labels étendus)
Il y a une roadmap pour y remédier ? (réécriture automatique ? réannotation ?) Le cas contraire, il faudrait trouver une nomenclature (FR_Spoken_Own_Tokenization ? +Amalgams?) pour que les gens ne pensent pas qu'entrainer un parser sur les autres et l'évaluer sur celui-là soit une bonne idée.

Djamé

kimgerdes commented 5 years ago

Salut Djamé, non, ya pa de roadmap afaik.

est-ce qu'on est tous d'accord avec la proposition de @bguil du 7 juin ? si oui, il faudrait pê la préciser un peu. sinon, quel guide de segmentation suivre ?

pour préciser la proposition : on n'a donc pas d'autres amalgames que les 6 mentionnés ? donc de n'est jamais séparé (on aura des phrases en tokens comme il parle de chevaux, il parle de les chevaux) et en n'est jamais séparés ? (-> il est allé à le Chili et à l' Italie et en France)

@bguil : t'as déjà fait des changements suivant cette proposition ? si oui, et il y a des règles grew, pê on pourrait les adapter au french spoken.

perso, je suis tjrs pour la première proposition : ne pas défaire des amalgames et mettre les différences dans des structures et traits différents. justement pour le parsing, ça sera bcp plus facile et ça rendra les treebank du français bcp plus facilement utilisable pour l'apprentissage.

dseddah commented 5 years ago

Le 10 sept. 2019 à 16:08, kim gerdes notifications@github.com a écrit :

Salut Djamé, non, ya pa de roadmap afaik.

est-ce qu'on est tous d'accord avec la proposition de @bguil du 7 juin ? si oui, il faudrait pê la préciser un peu. sinon, quel guide de segmentation suivre ? ceux qu’on a suivi, issus du ftb, pour sequoia et le fqb ? Sinon, plus pragmatiquement on peut suivre la proposition de decomposer ceux qui sont dans la liste.

pour préciser la proposition : on n'a donc pas d'autres amalgames que les 6 mentionnés ? donc de n'est jamais séparé (on aura des phrases en tokens comme il parle de chevaux, il parle de les chevaux) et en n'est jamais séparés ? (-> il est allé à le Chili et à l' Italie et en France)

non. La solution proposée plus haut a le mérite d’éviter de désambuigiser au moment de la tokenization, on va pas réintroduire le problème avec les en qu’on désamalgame et les autres, si ?

@bguil : t'as déjà fait des changements suivant cette proposition ? si oui, et il y a des règles grew, pê on pourrait les adapter au french spoken..

perso, je suis tjrs pour la première proposition : ne pas défaire des amalgames et mettre les différences dans des structures et traits différents. justement pour le parsing, ça sera bcp plus facile et ça rendra les treebank du français bcp plus facilement utilisable pour l’apprentissage.

Dans l’absolu je suis d’accord avec toi, c’est juste qu’on a dû suivre contraint et forcé le guide UD sur la tokenization et que tous les autres treebank du français UD ont suivi ce principe. Soit on les remets tous en mode contracté, soit aucun mais dans ce cas là on est plus compatible non plus avec les autres treebanks et dans ce cas là autant forker UD et faire ce qu’on veut. Ce que vous avez d’ailleurs fait avec brio.

Si vous avez la flemme de le faire, ce qui est tout aussi compréhensible, il suffirait simplement de retirer French Spoken du pool des treebanks compatibles.

Djamé

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or mute the thread.

sylvainkahane commented 5 years ago

on a bcp travaillé à converger et il faut continuer. Pour SUD on a décidé de ne pas commencer à modifier tokenisation et POS, donc si on prend une décision ca doit être au niveau de UD. Je pense qu’on n’est pas trop lié par UD pour la tokenisation. En fait, il n’y a pas grand-chose de clair de ce coté-là dans les guides UD. On a vu passer récemment des discussions sur l’anglais qui sont du même genre que les notres (issue 641). Et quand on voit que le japonais et le coréen ont fait des trucs complètement différents sur des données similaires, faut pas trop qu’on s’inquiète. Je propose qu’on vote et qu’on homogénéise. Est-ce que ca poserait un pb profond pour les certains treebank si on défusionne aucun amalgame ? Comme le fait remarquer Kim, on aura de toute façon des noms nus après des prép à moins de mettre aussi DE et EN dans les amalgames. Perso je vote pour ne pas désamalgamer les DU et AU, mais je globalement je m’en fous un peu. Je trouve pas plus génant d’avoir DU en face de DE LA (du pain vs de la farine) que d’avoir EN en face de À LE (en Italie vs à le Chili). Et ca permet d’éviter les problèmes de tokenisation en parsing, notamment pour DES. Sy

Le 10 sept. 2019 à 16:03, Djamé notifications@github.com a écrit :

Le 10 sept. 2019 à 16:08, kim gerdes notifications@github.com a écrit :

Salut Djamé, non, ya pa de roadmap afaik.

est-ce qu'on est tous d'accord avec la proposition de @bguil du 7 juin ? si oui, il faudrait pê la préciser un peu. sinon, quel guide de segmentation suivre ? ceux qu’on a suivi, issus du ftb, pour sequoia et le fqb ? Sinon, plus pragmatiquement on peut suivre la proposition de decomposer ceux qui sont dans la liste.

pour préciser la proposition : on n'a donc pas d'autres amalgames que les 6 mentionnés ? donc de n'est jamais séparé (on aura des phrases en tokens comme il parle de chevaux, il parle de les chevaux) et en n'est jamais séparés ? (-> il est allé à le Chili et à l' Italie et en France)

non. La solution proposée plus haut a le mérite d’éviter de désambuigiser au moment de la tokenization, on va pas réintroduire le problème avec les en qu’on désamalgame et les autres, si ?

@bguil : t'as déjà fait des changements suivant cette proposition ? si oui, et il y a des règles grew, pê on pourrait les adapter au french spoken..

perso, je suis tjrs pour la première proposition : ne pas défaire des amalgames et mettre les différences dans des structures et traits différents. justement pour le parsing, ça sera bcp plus facile et ça rendra les treebank du français bcp plus facilement utilisable pour l’apprentissage.

Dans l’absolu je suis d’accord avec toi, c’est juste qu’on a dû suivre contraint et forcé le guide UD sur la tokenization et que tous les autres treebank du français UD ont suivi ce principe. Soit on les remets tous en mode contracté, soit aucun mais dans ce cas là on est plus compatible non plus avec les autres treebanks et dans ce cas là autant forker UD et faire ce qu’on veut. Ce que vous avez d’ailleurs fait avec brio.

Si vous avez la flemme de le faire, ce qui est tout aussi compréhensible, il suffirait simplement de retirer French Spoken du pool des treebanks compatibles.

Djamé

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or mute the thread.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/bguil/UD-French-discussion/issues/1?email_source=notifications&email_token=AFP34FBL3LYTC3P343GJQ6LQI6ZMHA5CNFSM4DXUUFYKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOD6LNLPI#issuecomment-529978813, or mute the thread https://github.com/notifications/unsubscribe-auth/AFP34FGGKSTPFIK3U7VGTGDQI6ZMHANCNFSM4DXUUFYA.

dseddah commented 5 years ago

Le 10 sept. 2019 à 17:32, sylvainkahane notifications@github.com a écrit :

on a bcp travaillé à converger et il faut continuer. Pour SUD on a décidé de ne pas commencer à modifier tokenisation et POS, donc si on prend une décision ca doit être au niveau de UD.

Je pense qu’on n’est pas trop lié par UD pour la tokenisation. En fait, il n’y a pas grand-chose de clair de ce coté-là dans les guides UD. On a vu passer récemment des discussions sur l’anglais qui sont du même genre que les notres (issue 641).

C’était pour les formes productive du type gonna, wanna, lemme see, gimme, .. du même genre que nos chépa, jsp, ct etc.. dans le crap et c’est une galère qui mélange normalisation, tokenization et tout le toutim.

Là on est plus dans une problèmatique de savoir ce qu’on fait pour les contractés canoniques.

Et quand on voit que le japonais et le coréen ont fait des trucs complètement différents sur des données similaires, faut pas trop qu’on s’inquiète. Je propose qu’on vote et qu’on homogénéise.

Pourquoi pas mais là le truc c’est que le seul treebank qui diverge dans le cas du français c’est le votre. On règlerait le problème super rapidement si vous désamalgamiez vos tokens de façon à ne pas avoir à désambuigiser quoi que ce soit avant le parsing et on en parle plus.

Est-ce que ca poserait un pb profond pour les certains treebank si on défusionne aucun amalgame ?`

comment tu proposes qu’on refusionne ? et qui va le faire pour les autres treebanks du français qu’on gère pas ?

Comme le fait remarquer Kim, on aura de toute façon des noms nus après des prép à moins de mettre aussi DE et EN dans les amalgames. Perso je vote pour ne pas désamalgamer les DU et AU, mais je globalement je m’en fous un peu. Je trouve pas plus génant d’avoir DU en face de DE LA (du pain vs de la farine) que d’avoir EN en face de À LE (en Italie vs à le Chili). Et ca permet d’éviter les problèmes de tokenisation en parsing, notamment pour DES.

je vote pour qu’on désamalgame les 6 indiqués plus haut (au, du, des, auxquels, desquels.. pas « en")

OU qu’on les refusionne tous y compris les autres treebanks du français.

Le seul interêt d’UD c’est d’avoir des treebanks homogènes sur certains aspects, si on commence à diverger autant rester en format natif.

Djamé

Sy

Le 10 sept. 2019 à 16:03, Djamé notifications@github.com a écrit :

Le 10 sept. 2019 à 16:08, kim gerdes notifications@github.com a écrit :

Salut Djamé, non, ya pa de roadmap afaik.

est-ce qu'on est tous d'accord avec la proposition de @bguil du 7 juin ? si oui, il faudrait pê la préciser un peu. sinon, quel guide de segmentation suivre ? ceux qu’on a suivi, issus du ftb, pour sequoia et le fqb ? Sinon, plus pragmatiquement on peut suivre la proposition de decomposer ceux qui sont dans la liste.

pour préciser la proposition : on n'a donc pas d'autres amalgames que les 6 mentionnés ? donc de n'est jamais séparé (on aura des phrases en tokens comme il parle de chevaux, il parle de les chevaux) et en n'est jamais séparés ? (-> il est allé à le Chili et à l' Italie et en France)

non. La solution proposée plus haut a le mérite d’éviter de désambuigiser au moment de la tokenization, on va pas réintroduire le problème avec les en qu’on désamalgame et les autres, si ?

@bguil : t'as déjà fait des changements suivant cette proposition ? si oui, et il y a des règles grew, pê on pourrait les adapter au french spoken..

perso, je suis tjrs pour la première proposition : ne pas défaire des amalgames et mettre les différences dans des structures et traits différents. justement pour le parsing, ça sera bcp plus facile et ça rendra les treebank du français bcp plus facilement utilisable pour l’apprentissage.

Dans l’absolu je suis d’accord avec toi, c’est juste qu’on a dû suivre contraint et forcé le guide UD sur la tokenization et que tous les autres treebank du français UD ont suivi ce principe. Soit on les remets tous en mode contracté, soit aucun mais dans ce cas là on est plus compatible non plus avec les autres treebanks et dans ce cas là autant forker UD et faire ce qu’on veut. Ce que vous avez d’ailleurs fait avec brio.

Si vous avez la flemme de le faire, ce qui est tout aussi compréhensible, il suffirait simplement de retirer French Spoken du pool des treebanks compatibles.

Djamé

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or mute the thread.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/bguil/UD-French-discussion/issues/1?email_source=notifications&email_token=AFP34FBL3LYTC3P343GJQ6LQI6ZMHA5CNFSM4DXUUFYKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOD6LNLPI#issuecomment-529978813, or mute the thread https://github.com/notifications/unsubscribe-auth/AFP34FGGKSTPFIK3U7VGTGDQI6ZMHANCNFSM4DXUUFYA.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or mute the thread.

bguil commented 5 years ago

Le consensus est pour ne pas faire dépendre la tokenisation de l'analyse syntaxique, donc 2 options:

A : on ne split aucun amalgame B : on split systématiquement (même les du partitifs et les des determinants)

La situation actuelle est:

Donc qu'on choisisse A ou B, il faudra changer les annotations des corpus French (hors Spoken).

Autant pour les du, le partitif est marginal mais le fait de splitter les des dans des enfants jouent en de les enfants jouent, ça fait vraiment mal aux yeux. Je pense que l'option A est la moins pire.

En pratique, je pense qu'il faudrait valider notre proposition auprès de Marie-Catherine pour GSD et des gens de ParTUT. Pour les autres corpus, on a la main dessus et on peut faire les modifs.

dseddah commented 5 years ago

Le 10 sept. 2019 à 21:06, Bruno Guillaume notifications@github.com a écrit :

Le consensus est pour ne pas faire dépendre la tokenisation de l'analyse syntaxique, donc 2 options:

A : on ne split aucun amalgame B : on split systématiquement (même les du partitifs et les des determinants)

La situation actuelle est:

• spoken --> aucun split (solution A) • tous les autres UD --> split au cas par cas: • pas de split pour les du partitifs ou les des déterminants : GM • split pour les autres cas : GM Donc qu'on choisisse A ou B, il faudra changer les annotations des corpus French (hors Spoken)

Donc, on a 4 cas 1) UD_GSD+PUD 2) FTB+Sequoia+FQB 3) Spoken 4) PartTUT

C’est vrai que c’est n’importe quoi..

mcandito commented 5 years ago

Salut, Merci Bruno pour le recap super clair, à sa lecture, la solution A me paraît effectivement la moins pire

Rem: Bruno, avant de faire effectivement les changements, pourra-t-on parler de l'impact sur les annotations de composés parseme-fr? A+

perrier54 commented 5 years ago

Je me range aussi à la solution A même si les MWE seront plus compliquées à gérer mais il faut être conscient que nous transgressons sur ce point le guide général d'annotation de UD et il faudra mettre un ticket dans la discussion générale sur UD pour demander à revoir le guide qui fait référence au français dans les exemples. Je pense que pour les prépositions amalgamées, il faudra mettre ADP comme POS et garder l'information de genre, nombre et éventuellement pronom relatif, ce qui permettra dans les traitements en cas de besoin de dissocier les amalgames.

bguil commented 5 years ago

Ok, merci pour les avis. Je vais mettre un ticket sur le github UD avec cette proposition "A".

@mcandito: on avait déjà mis en place un mécanisme de gestion des interactions amalgames/MWE en projetant les annotations parseme sur UD en annotation sur Sequoia.

Par défaut, quand un amalgame fait partie d'un MWE, ses deux éléments en font partie. Quand ce n'est pas le cas, l'info est ajouté dans la colonne CoNLL 11 avec /1 (resp. /2) si seulement le premier (resp. deuxième) élément est dans la MWE. Voir les exemples sur Grew-match (les /1 et /2 sont représentés pas des liens en pointillés).

mcdm commented 5 years ago

A lire tout le thread maintenant je suis un peu perplexe … Je ne comprends pas le problème avec la situation actuelle que Bruno avait résumée. Si Spoken défait aussi les contractés canoniques, tout est bon, non ?

Le commentaire de Flavio sur le UD thread me semble tout à fait juste : ce n’est pas un souci d’analyse syntaxique mais de tokenization. Je pense que Djamé faisait remarquer ça aussi.

Marie-Catherine

On Sep 11, 2019, at 4:11 AM, Bruno Guillaume notifications@github.com wrote:

Ok, merci pour les avis. Je vais mettre un ticket sur le github UD avec cette proposition "A".

@mcandito https://github.com/mcandito: on avait déjà mis en place un mécanisme de gestion des interactions amalgames/MWE en projetant les annotations parseme sur UD en annotation sur Sequoia.

Par défaut, quand un amalgame fait partie d'un MWE, ses deux éléments en font partie. Quand ce n'est pas le cas, l'info est ajouté dans la colonne CoNLL 11 avec /1 (resp. /2) si seulement le premier (resp. deuxième) élément est dans la MWE. Voir les exemples sur Grew-match http://match.grew.fr/?corpus=sequoia.deep_and_surf.parseme@9.0&custom=5d78aa0c84ad8 (les /1 et /2 sont représentés pas des liens en pointillés).

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/bguil/UD-French-discussion/issues/1?email_source=notifications&email_token=ABZ4KM5AN5REVC5S2JGOJCTQJCR3VA5CNFSM4DXUUFYKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOD6NVAEI#issuecomment-530272273, or mute the thread https://github.com/notifications/unsubscribe-auth/ABZ4KM2ISGAQDEMF56ZIHWTQJCR3VANCNFSM4DXUUFYA.

dseddah commented 5 years ago

Le 12 sept. 2019 à 20:16, Marie-Catherine de Marneffe notifications@github.com a écrit :

A lire tout le thread maintenant je suis un peu perplexe … Je ne comprends pas le problème avec la situation actuelle que Bruno avait résumée. Si Spoken défait aussi les contractés canoniques, tout est bon, non ?

  • pas de split pour les du partitifs ou les des déterminants
  • split pour les autres cas

En fait si j’ai bien compris Spoken n’a aucun trait morphologique (au moins dans sa version UD) qui permettrait de désambiguiser facilement (ie sans annotation manuelle) les partitifs des autres contractés, sans même parler du « des » articles. D’où le fait de proposer de soit décomposer tous les contractés, au risque d’avoir des analyses un peu borderline pour les partitifs, encore que pour « du" qui commute avec "de la" ça passerait, et carrément piquantes pour les yeux pour des/'de les' enfants sont venus.

Le commentaire de Flavio sur le UD thread me semble tout à fait juste : ce n’est pas un souci d’analyse syntaxique mais de tokenization. Je pense que Djamé faisait remarquer ça aussi.

En fait le point, c’est qu’on aurait souhaité homégénéiser la tokenization du françajs (les cas litigieux se désambuigisent syntaxiquement en fait) soit en conservant tous les contractés (situation des treebanks fu français pré-UD) soit en les dés-amalgamant tous. Ce qui éviterait à la fois 1) une annotation manuelle sur Spoken 2) et un gros travail d’homogénéisation entre les treebanks FTB-based (FTB, Sequoia, FQB) et GSD-based (French_GSD, PUD) qui divergent dans les annotations des contractés (cf. mail de Guillaume).

je suis d’accord avec toi, ça pose des problèmes en terme d’inscription dans le framework UD.

Marie-Catherine

On Sep 11, 2019, at 4:11 AM, Bruno Guillaume notifications@github.com wrote:

Ok, merci pour les avis. Je vais mettre un ticket sur le github UD avec cette proposition "A".

@mcandito https://github.com/mcandito: on avait déjà mis en place un mécanisme de gestion des interactions amalgames/MWE en projetant les annotations parseme sur UD en annotation sur Sequoia.

Par défaut, quand un amalgame fait partie d'un MWE, ses deux éléments en font partie. Quand ce n'est pas le cas, l'info est ajouté dans la colonne CoNLL 11 avec /1 (resp. /2) si seulement le premier (resp. deuxième) élément est dans la MWE. Voir les exemples sur Grew-match http://match.grew.fr/?corpus=sequoia.deep_and_surf.parseme@9.0&custom=5d78aa0c84ad8 (les /1 et /2 sont représentés pas des liens en pointillés).

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/bguil/UD-French-discussion/issues/1?email_source=notifications&email_token=ABZ4KM5AN5REVC5S2JGOJCTQJCR3VA5CNFSM4DXUUFYKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOD6NVAEI#issuecomment-530272273, or mute the thread https://github.com/notifications/unsubscribe-auth/ABZ4KM2ISGAQDEMF56ZIHWTQJCR3VANCNFSM4DXUUFYA.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or mute the thread.

bguil commented 5 years ago

Ce que je voulais dire à propos de l'analyse syntaxique: si je veux ajouter dans le French-GSD actuel les deux nouvelles phrases:

(1) Je rencontre des étudiants (2) Je parle des étudiants

je dois faire un traitement différent des deux des qui change la "Word segmentation" (https://universaldependencies.org/u/overview/tokenization.html): 4 "words" pour (1) ou 5 "words" pour (2). Pour décider la bonne segmentation, il faut faire une analyse (au moins POS) de la phrase.

Pour éviter ça, on en était donc arrivé à proposer d'annoter de telle façon que tous les "des" aient la même segmentation, d'où les deux propositions: