Open livyreal opened 7 years ago
@claudiafreitas e @livyreal e qual seria a melhor alternativa? 'elas' imagino que deveria ser lematizado para 'eles' mas seria 'eles' lematizado para 'ele'? acho que a inflexão de verbos e palavras em gênero e número justifica a lematização, mas para estes casos de pronomes a coisa fica mais complicada né? Sugestões? Viram algum guideline em UD?
tudo para mim deveria ser "ele", a forma singular e masculina. pronomes não são tão simples como substantivos (assumir que "ela" é forma de "ele" não é tão óbvio quanto assumir que "escritora" é forma de "escritor"), mas eu acho que podemos generalizar tranquilamente este caso.
LEMMA field should contain the canonical or base form of the word, such as the form typically found in dictionaries.
E nos dicionários de PT, aparece:
(e.la) pr.pess.
- Fem. de ele.
(aulete)
@livyreal sim, mas e o caso de 'eles'? Eu concordei com o 'ela'!
@livyreal e @claudiafreitas precisamos de uma regra geral para lemas, curiosamente, em [1] ele não sugere nada para pronomes:
The POS tag also determines what word form will be used as the lemma. For VERB and AUX, the lemma is the infinitive (Section 5),5 except for [bg] and [mk]: these languages do not have infinitives, and present indicative forms are used as lemmas there. However, if the word is tagged ADJ, the masculine singular nominative form of the adjective serves as the lemma. The annotation does not show the infinitive of the base verb (except for an optional reference in the MISC column). Similarly, the lemma of a verbal NOUN is its singular nominative form.
"eles" é o plural de "ele" e o lemma é a forma no singular da palavra. "eles" nem tem no aulete. Mas tem no dicio:
Significado de Eles pron. Do mesmo significado e função de ele. [Gramática] Primeira Pessoa do Plural. (Etm. do latim: ille)
E esta regra que eu citei acima? Não te parece suficientemente clara?
LEMMA field should contain the canonical or base form of the word, such as the form typically found in dictionaries.
@livyreal não, gostaria talvez de uma regra bem específica para cada POS. Acho que um artigo como o do Dan acima para português será um esforço interessante.
Vide simples sumarização, parece que temos bastante coisa inconsistente. Imagino que lema e features para estes casos não varia com contexto:
$ cat *.conll | awk '$4 ~ /PRON/ {print $2,$3,$6}' | sort | uniq -c
...
12 Ela ela PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Fem
2 Ela ele PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Fem
8 Elas elas PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Fem
74 Ele ele PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Masc
3 Eles ele PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Masc
25 Eles eles PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Masc
1 Eles eles PronType=Prs|Person=3|Number=Plur|Gender=Masc
7 Essa esse PronType=Dem|Number=Sing|Gender=Fem
3 Esse esse PronType=Dem|Number=Sing|Gender=Masc
3 Esses esse PronType=Dem|Number=Plur|Gender=Masc
12 Esta este PronType=Dem|Number=Sing|Gender=Fem
2 Estas este PronType=Dem|Number=Plur|Gender=Fem
7 Este este PronType=Dem|Number=Sing|Gender=Masc
2 Estes este PronType=Dem|Number=Plur|Gender=Masc
...
32 ela ela PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Fem
22 ela ela PronType=Prs|Person=3|Number=Sing|Gender=Fem
15 ela ele PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Fem
7 ela ele PronType=Prs|Person=3|Number=Sing|Gender=Fem
7 elas elas PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Fem
7 elas elas PronType=Prs|Person=3|Number=Plur|Gender=Fem
7 elas ele PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Fem
12 elas ele PronType=Prs|Person=3|Number=Plur|Gender=Fem
137 ele ele PronType=Prs|Case=Nom|Person=3|Number=Sing|Gender=Masc
47 ele ele PronType=Prs|Person=3|Number=Sing|Gender=Masc
14 eles ele PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Masc
16 eles ele PronType=Prs|Person=3|Number=Plur|Gender=Masc
30 eles eles PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Masc
18 eles eles PronType=Prs|Person=3|Number=Plur|Gender=Masc
eu concordo com Livy!
ainda há casos em que temos dois lemmas:
12 lhe ele/ela PRON PERS_M/F_3S_DAT_@<DAT PronType=Prs|Case=Dat|Person=3|Number=Sing|Gender=None 11 iobj
Correto, no corpus CP, os números são as linhas
# cat bosque_CP.udep.conll | gawk '$2 ~ /^lhe$/ && $3 ~ /\// { print NR, $2,$3 }'
9784 lhe ele/ela
16666 lhe ele/ela
21287 lhe ele/ela
57497 lhe ele/ela
124309 lhe ele/ela
129671 lhe ele/ela
Podemos resolver isso no UD quando tivermos a versão final do @EckhardBick
One argument in favour of treating eles/elas in this way are the 1st and 2nd person personal pronouns. Does it make sense to assign the lemma "eu" to "nós"? And if one wants to avoid that, 3. person personal pronouns might deserve the same treatment, i.e. having their nominative as lemma, but otherwise keep their number and gender in the lemma. The decision being that personal pronouns only inflect for case, not number and gender. But it's a tricky topic, and it's not a "religious" issue for me.
I also do not know the better solution. Checking how it appears in other corpora
22 us we PRON PRP Case=Acc|Number=Plur|Person=1|PronType=Prs 21 dobj _ SpaceAfter=No
2 we we PRON PRP Case=Nom|Number=Plur|Person=1|PronType=Prs 5 nsubj _ _
6 them they PRON PRP Case=Acc|Number=Plur|Person=3|PronType=Prs 5 dobj _ _
20 her she PRON PRP$ Gender=Fem|Number=Sing|Person=3|Poss=Yes|PronType=Prs 21 nmod:poss _ _
3 mine mine PRON PRP _ 2 dobj _ _
6 me I PRON PRP Case=Acc|Number=Sing|Person=1|PronType=Prs 4 nmod _ _
in EN
I didn't find documentation on that lemmatization. It seems the lemma is the nominative case of each pronoun, disregarding number and person. That is the lemma of "me" (AC/1p) is "I", but the lemma of "we" is "we" itself (and not I). As well the lemma of "she" is "she" (and not "he").
I continue to check how lemmatization was done in other corpora. I think this idea of "the form typically found in dictionaries" is not enough for us.
Eu discuti um pouco sobre isso com @claudiafreitas e acabamos não concluíndo nada. A discussão na lista UD também não evolui como eu esperava, com mais comentários de outras linguas. Mas certamente precisamos definir um critério de lematização para todos os pronomes e verificar se o corpus está consistente com isso!
@arademaker Deixe como esta' e va' em frente, pois os espanhois ja' tem 4 linguas (English, Spanish, Portuguese, and Galician) anotadas desse jeito. de uma olhada em http://www.anthology.aclweb.org/W/W12/W12-0702.pdf e' velho, talvez voce ja conheca, mas eu nao conhecia.
não dá pra deixar como está pq não está consistente internamente... e já que é pra arrumar, vamos arrumar com base em um critério que nos pareça o mais correto possível. Vou olhar este artigo, @vcvpaiva, obrigada.
Estou tentando pensar em usos do corpus. Qual a vantagem ou desvantagem em termos mais lemmas ou menos lemmas para treinar o freeling, @arademaker? É difícil decidir estas filigranas sem ter algumas tarefas específicas em mente.
@livyreal quando eu disse deixe como esta', eu nao quiz dizer pra nao modificar. claro que consistencia 'e importante, quiz dizer pra deixar com a notacao dos espanhois. essas filigranas nao me parecem importante pra semantica das sentencas, a tarefa que eu tenho em mente.
decidimos que a única feature que é relevante para lemma dos pronomes é caso. Número, pessoa e gênero manteremos token e lema da mesma forma.
A feature caso em português aparece apenas em pronomes. E isto tem impacto na sintaxe, eu é sempre sujeito, me é sempre objeto, ainda que o objtero referenciado (semântica seja o mesmo).
assim teremos: eu eu me eu te tu lhe ele elas elas nós nós
Uma lista completa chegará na segunda feira!
@claudiafreitas veja a lista
(testando esta aplicabilidade aqui da figura, a lista está aqui)
Casos em que um pronome pode ter mais de um lemma (como lhe = ele/ela), acredito que conseguimos capturar usando as features de UD (indiquei na terceira coluna).
O problema maior é o caso do "se". Não deixei lemma nenhum...
Em alguns casos do "se", é possível achar o lemma seguindo as features de UD (que vieram do PALAVRAS):
1 A o DET <artd>|ART|F|S|@>N Definite=Def|Gender=Fem|Number=Sing|PronType=Art 2 det _ _
2 medida medida NOUN <np-def>|N|F|S|@SUBJ> Gender=Fem|Number=Sing 4 nsubj _ _
3 preconizada preconizar VERB <mv>|V|PCP|F|S|@ICL-N< Gender=Fem|Number=Sing|VerbForm=Part 2 acl _ _
4 prende- prender VERB <mv>|<first-cjt>|<hyphen>|<se-passive>|V|PR|3S|IND|@FS-STA Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 0 root _ _
5 se se PRON PERS|F|3S|ACC|@<ACC-PASS Case=Acc|Gender=Fem|Number=Sing|Person=3|PronType=Prs 4 dobj _ _
Neste caso, o lemma de "se" em 5 é "ela", concorda?
Mas em muitos casos o "se" é ambiguo, entre pelo menos duas formas de lemma.
10 os o DET <artd>|ART|M|P|@>N Definite=Def|Gender=Masc|Number=Plur|PronType=Art 12 det _ _
11 grandes grande ADJ ADJ|M|P|@>N Gender=Masc|Number=Plur 12 amod _ _
12 entraves entrave NOUN <np-def>|N|M|P|@P< Gender=Masc|Number=Plur 4 xcomp _ _
13 para para ADP PRP|@N<ARG _ 17 mark _ _
14 que que SCONJ KS|@SUB _ 17 mark _ _
15 tudo tudo PRON <quant>|INDP|M/F|S|@SUBJ> Gender=Unsp|Number=Sing|PronType=Ind 17 nsubj _ _
16 se se PRON PERS|M/F|3S|ACC|@ACC>-PASS Case=Acc|Gender=Unsp|Number=Sing|Person=3|PronType=Prs 17 dobj _ _
17 concretize concretizar VERB <mv>|<se-passive>|V|PR|3S|SUBJ|@FS-P< Mood=Sub|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin 12 acl _ _
O que fazemos? Lematizamos para "ele"?
@claudiafreitas vc pode verificar a lista acima, por favor?
for the records. In Freeling, Padro said they follow for Spanish and Catalan
1) personal pronouns:
1a) Nominative pronouns (yo, tú, él, ella, nosotros, nosotras, vosotros, vosotras, ellos, ellas) Are lematized to the masculine form with the same number. that is:
yo yo PP1CSN0 tú tú PP2CSN0 él él PP3MS00 ella él PP3FS00 nosotras nosotros PP1FP00 nosotros nosotros PP1MP00 vosotras vosotros PP2FP00 vosotros vosotros PP2MP00 ellas ellos PP3FP00 ellos ellos PP3MP00
1b) acusative-only are lematized to the masculine singular form la lo PP3FSA0 las lo PP3FPA0 lo lo PP3MSA0 los lo PP3MPA0
1c) only dative are lematized to the masculine singular form (though there is no gender distinction) le le PP3CSD0 les le PP3CPD0
1d) ambiguous acusative-dative, or oblique, each keep its form as lemma ambiguous: me me PP1CS00 te te PP2CS00 se se PP3CN00 nos nos PP1CP00 os os PP2CP00
oblique: mí mí PP1CSO0 ti ti PP2CSO0
2) Other pronouns: non personal pronouns are lemmatized to the masculine singular. E.g.: otra otro PI0FS00 otras otro PI0FP00 otro otro PI0MS00 otros otro PI0MP00 esa ese PD0FS00 esas ese PD0FP00 ese ese PD0MS00 eso ese PD00S00 esos ese PD0MP00 ... etc
awk '$4 ~ /PRON/ {print $3}' *.conllu | sort | uniq -c
alguns casos que claramente não são pronomes.
Alguns pronomes clíticos têm mais de um valor para caso, acusativo ou dativo, e podem ser tanto OBL quanto OBJ. Mas como observado acima temos inconsistências de lematização.
% awk '$2 ~ /^(me|lhe)$/ {print $2,$3,$8}' *.conllu | sort | uniq -c
33 lhe ela iobj
94 lhe ele iobj
6 lhe ele/ela iobj
29 me eu iobj
1 me eu nsubj
59 me eu obj
1 me me nmod
1 me me obj
The remain cases to be fixed for lhe
and me
:
% awk '$2 ~ /^(me|lhe)$/ {print $2,$3,$8}' *.conllu | sort | uniq -c
20 lhe ela iobj
113 lhe ele iobj
29 me eu iobj
1 me eu nsubj
59 me eu obj
1 me me nmod
1 me me obj
I think PALAVRAS lematize "eles", "os", "los" as "eles" (and not "ele").
Examples from CF_UD:
The same for "elas":
10 elas elas PRON PERS_F_3P_NOM_@SUBJ> PronType=Prs|Case=Nom|Person=3|Number=Plur|Gender=Fem 11 nsubj