UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
47 stars 11 forks source link

Lemma de pronomes #42

Open livyreal opened 7 years ago

livyreal commented 7 years ago

I think PALAVRAS lematize "eles", "os", "los" as "eles" (and not "ele").

Examples from CF_UD:

1   Eles    eles    PRON    PERS_M_3P_NOM_@SUBJ>    PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Masc  3   nsubj       

25  mantê- manter  VERB    V_INF_@ICL-P<   VerbForm=Inf    22  acl     
26  los eles    PRON    PERS_M_3P_ACC_@<ACC PronType=Prs|Case=Acc|Person=3|Number=Plur|Gender=Masc  25  dobj    

13  distribuir- distribuir  VERB    V_INF_@ICL-P<   VerbForm=Inf    11  acl     
14  los eles    PRON    PERS_M_3P_ACC_@<ACC PronType=Prs|Case=Acc|Person=3|Number=Plur|Gender=Masc  13  dobj

The same for "elas":

10 elas elas PRON PERS_F_3P_NOM_@SUBJ> PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Fem 11 nsubj

arademaker commented 7 years ago

@claudiafreitas e @livyreal e qual seria a melhor alternativa? 'elas' imagino que deveria ser lematizado para 'eles' mas seria 'eles' lematizado para 'ele'? acho que a inflexão de verbos e palavras em gênero e número justifica a lematização, mas para estes casos de pronomes a coisa fica mais complicada né? Sugestões? Viram algum guideline em UD?

livyreal commented 7 years ago

tudo para mim deveria ser "ele", a forma singular e masculina. pronomes não são tão simples como substantivos (assumir que "ela" é forma de "ele" não é tão óbvio quanto assumir que "escritora" é forma de "escritor"), mas eu acho que podemos generalizar tranquilamente este caso.

Ud guidelines:

LEMMA field should contain the canonical or base form of the word, such as the form typically found in dictionaries.

E nos dicionários de PT, aparece:

(e.la) pr.pess.

  1. Fem. de ele.

(aulete)

arademaker commented 7 years ago

@livyreal sim, mas e o caso de 'eles'? Eu concordei com o 'ela'!

arademaker commented 7 years ago

@livyreal e @claudiafreitas precisamos de uma regra geral para lemas, curiosamente, em [1] ele não sugere nada para pronomes:

The POS tag also determines what word form will be used as the lemma. For VERB and AUX, the lemma is the infinitive (Section 5),5 except for [bg] and [mk]: these languages do not have infinitives, and present indicative forms are used as lemmas there. However, if the word is tagged ADJ, the masculine singular nominative form of the adjective serves as the lemma. The annotation does not show the infinitive of the base verb (except for an optional reference in the MISC column). Similarly, the lemma of a verbal NOUN is its singular nominative form.

[1] http://ufal.mff.cuni.cz/pbml/105/art-zeman.pdf

livyreal commented 7 years ago

"eles" é o plural de "ele" e o lemma é a forma no singular da palavra. "eles" nem tem no aulete. Mas tem no dicio:

Significado de Eles pron. Do mesmo significado e função de ele. [Gramática] Primeira Pessoa do Plural. (Etm. do latim: ille)

E esta regra que eu citei acima? Não te parece suficientemente clara?

Ud guidelines:

LEMMA field should contain the canonical or base form of the word, such as the form typically found in dictionaries.

arademaker commented 7 years ago

@livyreal não, gostaria talvez de uma regra bem específica para cada POS. Acho que um artigo como o do Dan acima para português será um esforço interessante.

arademaker commented 7 years ago

Vide simples sumarização, parece que temos bastante coisa inconsistente. Imagino que lema e features para estes casos não varia com contexto:

$ cat *.conll | awk '$4 ~ /PRON/  {print $2,$3,$6}' | sort | uniq -c
...
  12 Ela ela PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Fem
   2 Ela ele PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Fem
   8 Elas elas PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Fem
  74 Ele ele PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Masc
   3 Eles ele PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Masc
  25 Eles eles PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Masc
   1 Eles eles PronType=Prs|Person=3|Number=Plur|Gender=Masc
   7 Essa esse PronType=Dem|Number=Sing|Gender=Fem
   3 Esse esse PronType=Dem|Number=Sing|Gender=Masc
   3 Esses esse PronType=Dem|Number=Plur|Gender=Masc
  12 Esta este PronType=Dem|Number=Sing|Gender=Fem
   2 Estas este PronType=Dem|Number=Plur|Gender=Fem
   7 Este este PronType=Dem|Number=Sing|Gender=Masc
   2 Estes este PronType=Dem|Number=Plur|Gender=Masc
...
  32 ela ela PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Fem
  22 ela ela PronType=Prs|Person=3|Number=Sing|Gender=Fem
  15 ela ele PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Fem
   7 ela ele PronType=Prs|Person=3|Number=Sing|Gender=Fem
   7 elas elas PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Fem
   7 elas elas PronType=Prs|Person=3|Number=Plur|Gender=Fem
   7 elas ele PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Fem
  12 elas ele PronType=Prs|Person=3|Number=Plur|Gender=Fem
 137 ele ele PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Masc
  47 ele ele PronType=Prs|Person=3|Number=Sing|Gender=Masc
  14 eles ele PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Masc
  16 eles ele PronType=Prs|Person=3|Number=Plur|Gender=Masc
  30 eles eles PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Masc
  18 eles eles PronType=Prs|Person=3|Number=Plur|Gender=Masc
vcvpaiva commented 7 years ago

eu concordo com Livy!

livyreal commented 7 years ago

ainda há casos em que temos dois lemmas:

12  lhe ele/ela PRON    PERS_M/F_3S_DAT_@<DAT PronType=Prs|Case=Dat|Person=3|Number=Sing|Gender=None    11  iobj
arademaker commented 7 years ago

Correto, no corpus CP, os números são as linhas

# cat bosque_CP.udep.conll | gawk '$2 ~ /^lhe$/ && $3 ~ /\// { print NR, $2,$3 }'
9784 lhe ele/ela
16666 lhe ele/ela
21287 lhe ele/ela
57497 lhe ele/ela
124309 lhe ele/ela
129671 lhe ele/ela

Podemos resolver isso no UD quando tivermos a versão final do @EckhardBick

EckhardBick commented 7 years ago

One argument in favour of treating eles/elas in this way are the 1st and 2nd person personal pronouns. Does it make sense to assign the lemma "eu" to "nós"? And if one wants to avoid that, 3. person personal pronouns might deserve the same treatment, i.e. having their nominative as lemma, but otherwise keep their number and gender in the lemma. The decision being that personal pronouns only inflect for case, not number and gender. But it's a tricky topic, and it's not a "religious" issue for me.

livyreal commented 7 years ago

I also do not know the better solution. Checking how it appears in other corpora

22  us  we  PRON    PRP Case=Acc|Number=Plur|Person=1|PronType=Prs  21  dobj    _   SpaceAfter=No
2   we  we  PRON    PRP Case=Nom|Number=Plur|Person=1|PronType=Prs  5   nsubj   _   _
6   them    they    PRON    PRP Case=Acc|Number=Plur|Person=3|PronType=Prs  5   dobj    _   _
20  her she PRON    PRP$    Gender=Fem|Number=Sing|Person=3|Poss=Yes|PronType=Prs   21  nmod:poss   _   _
3   mine    mine    PRON    PRP _   2   dobj    _   _
6   me  I   PRON    PRP Case=Acc|Number=Sing|Person=1|PronType=Prs  4   nmod    _   _

in EN

I didn't find documentation on that lemmatization. It seems the lemma is the nominative case of each pronoun, disregarding number and person. That is the lemma of "me" (AC/1p) is "I", but the lemma of "we" is "we" itself (and not I). As well the lemma of "she" is "she" (and not "he").

I continue to check how lemmatization was done in other corpora. I think this idea of "the form typically found in dictionaries" is not enough for us.

arademaker commented 7 years ago

Eu discuti um pouco sobre isso com @claudiafreitas e acabamos não concluíndo nada. A discussão na lista UD também não evolui como eu esperava, com mais comentários de outras linguas. Mas certamente precisamos definir um critério de lematização para todos os pronomes e verificar se o corpus está consistente com isso!

vcvpaiva commented 7 years ago

@arademaker Deixe como esta' e va' em frente, pois os espanhois ja' tem 4 linguas (English, Spanish, Portuguese, and Galician) anotadas desse jeito. de uma olhada em http://www.anthology.aclweb.org/W/W12/W12-0702.pdf e' velho, talvez voce ja conheca, mas eu nao conhecia.

livyreal commented 7 years ago

não dá pra deixar como está pq não está consistente internamente... e já que é pra arrumar, vamos arrumar com base em um critério que nos pareça o mais correto possível. Vou olhar este artigo, @vcvpaiva, obrigada.

Estou tentando pensar em usos do corpus. Qual a vantagem ou desvantagem em termos mais lemmas ou menos lemmas para treinar o freeling, @arademaker? É difícil decidir estas filigranas sem ter algumas tarefas específicas em mente.

vcvpaiva commented 7 years ago

@livyreal quando eu disse deixe como esta', eu nao quiz dizer pra nao modificar. claro que consistencia 'e importante, quiz dizer pra deixar com a notacao dos espanhois. essas filigranas nao me parecem importante pra semantica das sentencas, a tarefa que eu tenho em mente.

livyreal commented 7 years ago

decidimos que a única feature que é relevante para lemma dos pronomes é caso. Número, pessoa e gênero manteremos token e lema da mesma forma.

A feature caso em português aparece apenas em pronomes. E isto tem impacto na sintaxe, eu é sempre sujeito, me é sempre objeto, ainda que o objtero referenciado (semântica seja o mesmo).

assim teremos: eu eu me eu te tu lhe ele elas elas nós nós

Uma lista completa chegará na segunda feira!

livyreal commented 7 years ago

@claudiafreitas veja a lista

image

(testando esta aplicabilidade aqui da figura, a lista está aqui)

Casos em que um pronome pode ter mais de um lemma (como lhe = ele/ela), acredito que conseguimos capturar usando as features de UD (indiquei na terceira coluna).

O problema maior é o caso do "se". Não deixei lemma nenhum...

Em alguns casos do "se", é possível achar o lemma seguindo as features de UD (que vieram do PALAVRAS):

1   A   o   DET <artd>|ART|F|S|@>N  Definite=Def|Gender=Fem|Number=Sing|PronType=Art    2   det _   _
2   medida  medida  NOUN    <np-def>|N|F|S|@SUBJ>   Gender=Fem|Number=Sing  4   nsubj   _   _
3   preconizada preconizar  VERB    <mv>|V|PCP|F|S|@ICL-N<  Gender=Fem|Number=Sing|VerbForm=Part    2   acl _   _
4   prende- prender VERB    <mv>|<first-cjt>|<hyphen>|<se-passive>|V|PR|3S|IND|@FS-STA  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   0   root    _   _
5   se  se  PRON    PERS|F|3S|ACC|@<ACC-PASS    Case=Acc|Gender=Fem|Number=Sing|Person=3|PronType=Prs   4   dobj    _   _

Neste caso, o lemma de "se" em 5 é "ela", concorda?

Mas em muitos casos o "se" é ambiguo, entre pelo menos duas formas de lemma.

10  os  o   DET <artd>|ART|M|P|@>N  Definite=Def|Gender=Masc|Number=Plur|PronType=Art   12  det _   _
11  grandes grande  ADJ ADJ|M|P|@>N Gender=Masc|Number=Plur 12  amod    _   _
12  entraves    entrave NOUN    <np-def>|N|M|P|@P<  Gender=Masc|Number=Plur 4   xcomp   _   _
13  para    para    ADP PRP|@N<ARG  _   17  mark    _   _
14  que que SCONJ   KS|@SUB _   17  mark    _   _
15  tudo    tudo    PRON    <quant>|INDP|M/F|S|@SUBJ>   Gender=Unsp|Number=Sing|PronType=Ind    17  nsubj   _   _
16  se  se  PRON    PERS|M/F|3S|ACC|@ACC>-PASS  Case=Acc|Gender=Unsp|Number=Sing|Person=3|PronType=Prs  17  dobj    _   _
17  concretize  concretizar VERB    <mv>|<se-passive>|V|PR|3S|SUBJ|@FS-P<   Mood=Sub|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin   12  acl _   _

O que fazemos? Lematizamos para "ele"?

livyreal commented 7 years ago

@claudiafreitas vc pode verificar a lista acima, por favor?

arademaker commented 7 years ago

for the records. In Freeling, Padro said they follow for Spanish and Catalan

1) personal pronouns:

1a) Nominative pronouns (yo, tú, él, ella, nosotros, nosotras, vosotros, vosotras, ellos, ellas) Are lematized to the masculine form with the same number. that is:

yo yo PP1CSN0 tú tú PP2CSN0 él él PP3MS00 ella él PP3FS00 nosotras nosotros PP1FP00 nosotros nosotros PP1MP00 vosotras vosotros PP2FP00 vosotros vosotros PP2MP00 ellas ellos PP3FP00 ellos ellos PP3MP00

1b) acusative-only are lematized to the masculine singular form la lo PP3FSA0 las lo PP3FPA0 lo lo PP3MSA0 los lo PP3MPA0

1c) only dative are lematized to the masculine singular form (though there is no gender distinction) le le PP3CSD0 les le PP3CPD0

1d) ambiguous acusative-dative, or oblique, each keep its form as lemma ambiguous: me me PP1CS00 te te PP2CS00 se se PP3CN00 nos nos PP1CP00 os os PP2CP00

oblique: mí mí PP1CSO0 ti ti PP2CSO0

2) Other pronouns: non personal pronouns are lemmatized to the masculine singular. E.g.: otra otro PI0FS00 otras otro PI0FP00 otro otro PI0MS00 otros otro PI0MP00 esa ese PD0FS00 esas ese PD0FP00 ese ese PD0MS00 eso ese PD00S00 esos ese PD0MP00 ... etc

arademaker commented 4 years ago
awk '$4 ~ /PRON/ {print $3}' *.conllu | sort | uniq -c

alguns casos que claramente não são pronomes.

arademaker commented 3 years ago

Alguns pronomes clíticos têm mais de um valor para caso, acusativo ou dativo, e podem ser tanto OBL quanto OBJ. Mas como observado acima temos inconsistências de lematização.

% awk '$2 ~ /^(me|lhe)$/ {print $2,$3,$8}' *.conllu | sort | uniq -c
  33 lhe ela iobj
  94 lhe ele iobj
   6 lhe ele/ela iobj
  29 me eu iobj
   1 me eu nsubj
  59 me eu obj
   1 me me nmod
   1 me me obj
arademaker commented 3 years ago

The remain cases to be fixed for lhe and me:

% awk '$2 ~ /^(me|lhe)$/ {print $2,$3,$8}' *.conllu | sort | uniq -c
  20 lhe ela iobj
 113 lhe ele iobj
  29 me eu iobj
   1 me eu nsubj
  59 me eu obj
   1 me me nmod
   1 me me obj