Open GPPassos opened 7 years ago
yes, it is correct.
@GPPassos if you see the stats below we have ~ 30 cases of inconsistencies to be solved:
$ awk '$4 ~ /^DET$/ {print $2,$3}' *.conllu | sort | uniq -c | sort -nr
...
I agree that this is correct and I don't understand why was this reopened. Can you clarify the new issue now? Maybe update the issue title and expected fix?
we have at least ~30 cases of inconsistencies to correct, right?
2 as a
3 A A
25 a a
hmm, if I am reading this list right, there's more problems:
e achei que Livy tinha dito que na oera pra normalizar possessivos tipo 4 sua meu 4 seus meu
Em 225d91a, corrigimos os tokens esta
com lemma $2e
.
discutimos recentemente esta questão para os artigos/det e temos também os pronomes possessivos:
det:poss
Poss=Yes
@leoalenc poderiamos pensar em colocar pronomes, artigos e preposições no MorphoBr?! Seria uma forma interessante de ajudar na revisão do corpus e de baixo custo para estas palavras funcionais.
% awk '$5 ~ /<poss>/ {print $2,$3,$4,$6,$8}' *.conllu | sort | uniq -c
4 Meu meu DET Gender=Masc|Number=Sing|PronType=Prs det
3 Minha meu DET Gender=Fem|Number=Sing|PronType=Prs det
3 Nossa nosso DET Gender=Fem|Number=Sing|PronType=Prs det
2 Nosso nosso DET Gender=Masc|Number=Sing|PronType=Prs det
8 Seu seu DET Gender=Masc|Number=Sing|PronType=Prs det
1 Seus seu DET Gender=Masc|Number=Plur|PronType=Prs det
7 Sua seu DET Gender=Fem|Number=Sing|PronType=Prs det
2 Suas seu DET Gender=Fem|Number=Plur|PronType=Prs det
35 meu meu DET Gender=Masc|Number=Sing|PronType=Prs det
3 meus meu DET Gender=Masc|Number=Plur|PronType=Prs det
2 meus meu PRON Gender=Masc|Number=Plur|PronType=Prs obj
24 minha meu DET Gender=Fem|Number=Sing|PronType=Prs det
8 minhas meu DET Gender=Fem|Number=Plur|PronType=Prs det
31 nossa nosso DET Gender=Fem|Number=Sing|PronType=Prs det
10 nossas nosso DET Gender=Fem|Number=Plur|PronType=Prs det
1 nossas nosso DET Gender=Fem|Number=Plur|PronType=Prs obl
32 nosso nosso DET Gender=Masc|Number=Sing|PronType=Prs det
1 nossos meu DET Gender=Masc|Number=Plur|PronType=Prs det
24 nossos nosso DET Gender=Masc|Number=Plur|PronType=Prs det
1 nossos nosso PRON Gender=Masc|Number=Plur|PronType=Prs nsubj
1 nossos nosso PRON Gender=Masc|Number=Plur|PronType=Prs obl
4 seu meu DET Gender=Masc|Number=Sing|PronType=Prs det
1 seu seu DET Gender=Fem|Number=Sing|PronType=Prs det
350 seu seu DET Gender=Masc|Number=Sing|PronType=Prs det
2 seu seu PRON Gender=Masc|Number=Sing|PronType=Prs conj
4 seus meu DET Gender=Masc|Number=Plur|PronType=Prs det
171 seus seu DET Gender=Masc|Number=Plur|PronType=Prs det
3 sua meu DET Gender=Fem|Number=Sing|PronType=Prs det
428 sua seu DET Gender=Fem|Number=Sing|PronType=Prs det
1 sua seu PRON Gender=Fem|Number=Sing|PronType=Prs xcomp
3 suas meu DET Gender=Fem|Number=Plur|PronType=Prs det
114 suas seu DET Gender=Fem|Number=Plur|PronType=Prs det
2 teu teu DET Gender=Masc|Number=Sing|PronType=Prs det
3 vossa vosso DET Gender=Fem|Number=Sing|PronType=Prs det
2 vosso vosso DET Gender=Masc|Number=Sing|PronType=Prs det
discutimos recentemente esta questão para os artigos/det e temos também os pronomes possessivos:
- deveriamos usar
det:poss
- deveriamos usar
Poss=Yes
- deveriamos normalizar lemma
@leoalenc poderiamos pensar em colocar pronomes, artigos e preposições no MorphoBr?! Seria uma forma interessante de ajudar na revisão do corpus e de baixo custo para estas palavras funcionais.
% awk '$5 ~ /<poss>/ {print $2,$3,$4,$6,$8}' *.conllu | sort | uniq -c 4 Meu meu DET Gender=Masc|Number=Sing|PronType=Prs det 3 Minha meu DET Gender=Fem|Number=Sing|PronType=Prs det 3 Nossa nosso DET Gender=Fem|Number=Sing|PronType=Prs det 2 Nosso nosso DET Gender=Masc|Number=Sing|PronType=Prs det 8 Seu seu DET Gender=Masc|Number=Sing|PronType=Prs det 1 Seus seu DET Gender=Masc|Number=Plur|PronType=Prs det 7 Sua seu DET Gender=Fem|Number=Sing|PronType=Prs det 2 Suas seu DET Gender=Fem|Number=Plur|PronType=Prs det 35 meu meu DET Gender=Masc|Number=Sing|PronType=Prs det 3 meus meu DET Gender=Masc|Number=Plur|PronType=Prs det 2 meus meu PRON Gender=Masc|Number=Plur|PronType=Prs obj 24 minha meu DET Gender=Fem|Number=Sing|PronType=Prs det 8 minhas meu DET Gender=Fem|Number=Plur|PronType=Prs det 31 nossa nosso DET Gender=Fem|Number=Sing|PronType=Prs det 10 nossas nosso DET Gender=Fem|Number=Plur|PronType=Prs det 1 nossas nosso DET Gender=Fem|Number=Plur|PronType=Prs obl 32 nosso nosso DET Gender=Masc|Number=Sing|PronType=Prs det 1 nossos meu DET Gender=Masc|Number=Plur|PronType=Prs det 24 nossos nosso DET Gender=Masc|Number=Plur|PronType=Prs det 1 nossos nosso PRON Gender=Masc|Number=Plur|PronType=Prs nsubj 1 nossos nosso PRON Gender=Masc|Number=Plur|PronType=Prs obl 4 seu meu DET Gender=Masc|Number=Sing|PronType=Prs det 1 seu seu DET Gender=Fem|Number=Sing|PronType=Prs det 350 seu seu DET Gender=Masc|Number=Sing|PronType=Prs det 2 seu seu PRON Gender=Masc|Number=Sing|PronType=Prs conj 4 seus meu DET Gender=Masc|Number=Plur|PronType=Prs det 171 seus seu DET Gender=Masc|Number=Plur|PronType=Prs det 3 sua meu DET Gender=Fem|Number=Sing|PronType=Prs det 428 sua seu DET Gender=Fem|Number=Sing|PronType=Prs det 1 sua seu PRON Gender=Fem|Number=Sing|PronType=Prs xcomp 3 suas meu DET Gender=Fem|Number=Plur|PronType=Prs det 114 suas seu DET Gender=Fem|Number=Plur|PronType=Prs det 2 teu teu DET Gender=Masc|Number=Sing|PronType=Prs det 3 vossa vosso DET Gender=Fem|Number=Sing|PronType=Prs det 2 vosso vosso DET Gender=Masc|Number=Sing|PronType=Prs det
@arademaker , sim, isso ficou por fazer todos esses anos! Acho que chegou a hora de incluirmos todas as classes faltantes no MorphoBr. Talvez uma boa issue para @analununes? O ponto de partida, ao meu ver, deve ser o DELAF-PB, complementando com outros recursos disponíveis, como o próprio Bosque.
Durante correções em #365, detectamos possiveis inconsistencias onde determinantes as, a, os e o tem lemma diferente de o: http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=619f9597b472a, me parecem em geral casos com lemma errado ou que podem ser PRON.
I've found some tokens whose form are "a" but are lemmatized as "o". Is this correct?
Some examples:
I've found and counted 9598 examples of this type with
awk '$2 ~ /\ya\y/ && $3 ~ /o/ { count++} END {print count}' *.conllu
.