UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
50 stars 12 forks source link

inconsistencies on DET lemmas #159

Open GPPassos opened 7 years ago

GPPassos commented 7 years ago

I've found some tokens whose form are "a" but are lemmatized as "o". Is this correct?

Some examples:

# forest 1
# source CETEMPúblico n=9 sec=clt sem=95a
# sent_id CP9-1
# id 49
10  em  em  ADP <sam->|PRP|@<PIV    _   12  case    _   _
11  a   o   DET <-sam>|<artd>|ART|@>N   Definite=Def|PronType=Art   12  det _   _
12  história    história    NOUN    <np-def>|N|F|S|@P<  Gender=Fem|Number=Sing  8   nmod    _   _
# forest 1
# source CETEMPúblico n=99 sec=des sem=93a
# sent_id CP99-3
# id 525
1   A   o   DET <artd>|ART|F|S|@>N  Definite=Def|Gender=Fem|Number=Sing|PronType=Art    2   det _   _
2   dupla   dupla   NOUN    <np-def>|N|F|S|@SUBJ>   Gender=Fem|Number=Sing  8   nsubj   _   _ 

I've found and counted 9598 examples of this type with awk '$2 ~ /\ya\y/ && $3 ~ /o/ { count++} END {print count}' *.conllu.

livyreal commented 7 years ago

yes, it is correct.

arademaker commented 7 years ago

@GPPassos if you see the stats below we have ~ 30 cases of inconsistencies to be solved:

$ awk '$4 ~ /^DET$/ {print $2,$3}' *.conllu | sort | uniq -c | sort -nr
...
fcbr commented 7 years ago

I agree that this is correct and I don't understand why was this reopened. Can you clarify the new issue now? Maybe update the issue title and expected fix?

arademaker commented 7 years ago

we have at least ~30 cases of inconsistencies to correct, right?

2 as a
3 A A
25 a a
vcvpaiva commented 7 years ago

hmm, if I am reading this list right, there's more problems:

  1. 69 mais muito
  2. 28 O O
  3. 18 menos pouco
  4. esta $2e
  5. 9 uma uma
  6. 8 certos certos
  7. 7 um umo??

e achei que Livy tinha dito que na oera pra normalizar possessivos tipo 4 sua meu 4 seus meu

wellington36 commented 3 years ago

Em 225d91a, corrigimos os tokens esta com lemma $2e.

arademaker commented 2 years ago

discutimos recentemente esta questão para os artigos/det e temos também os pronomes possessivos:

  1. deveriamos usar det:poss
  2. deveriamos usar Poss=Yes
  3. deveriamos normalizar lemma

@leoalenc poderiamos pensar em colocar pronomes, artigos e preposições no MorphoBr?! Seria uma forma interessante de ajudar na revisão do corpus e de baixo custo para estas palavras funcionais.

% awk '$5 ~ /<poss>/ {print $2,$3,$4,$6,$8}' *.conllu | sort | uniq -c
   4 Meu meu DET Gender=Masc|Number=Sing|PronType=Prs det
   3 Minha meu DET Gender=Fem|Number=Sing|PronType=Prs det
   3 Nossa nosso DET Gender=Fem|Number=Sing|PronType=Prs det
   2 Nosso nosso DET Gender=Masc|Number=Sing|PronType=Prs det
   8 Seu seu DET Gender=Masc|Number=Sing|PronType=Prs det
   1 Seus seu DET Gender=Masc|Number=Plur|PronType=Prs det
   7 Sua seu DET Gender=Fem|Number=Sing|PronType=Prs det
   2 Suas seu DET Gender=Fem|Number=Plur|PronType=Prs det
  35 meu meu DET Gender=Masc|Number=Sing|PronType=Prs det
   3 meus meu DET Gender=Masc|Number=Plur|PronType=Prs det
   2 meus meu PRON Gender=Masc|Number=Plur|PronType=Prs obj
  24 minha meu DET Gender=Fem|Number=Sing|PronType=Prs det
   8 minhas meu DET Gender=Fem|Number=Plur|PronType=Prs det
  31 nossa nosso DET Gender=Fem|Number=Sing|PronType=Prs det
  10 nossas nosso DET Gender=Fem|Number=Plur|PronType=Prs det
   1 nossas nosso DET Gender=Fem|Number=Plur|PronType=Prs obl
  32 nosso nosso DET Gender=Masc|Number=Sing|PronType=Prs det
   1 nossos meu DET Gender=Masc|Number=Plur|PronType=Prs det
  24 nossos nosso DET Gender=Masc|Number=Plur|PronType=Prs det
   1 nossos nosso PRON Gender=Masc|Number=Plur|PronType=Prs nsubj
   1 nossos nosso PRON Gender=Masc|Number=Plur|PronType=Prs obl
   4 seu meu DET Gender=Masc|Number=Sing|PronType=Prs det
   1 seu seu DET Gender=Fem|Number=Sing|PronType=Prs det
 350 seu seu DET Gender=Masc|Number=Sing|PronType=Prs det
   2 seu seu PRON Gender=Masc|Number=Sing|PronType=Prs conj
   4 seus meu DET Gender=Masc|Number=Plur|PronType=Prs det
 171 seus seu DET Gender=Masc|Number=Plur|PronType=Prs det
   3 sua meu DET Gender=Fem|Number=Sing|PronType=Prs det
 428 sua seu DET Gender=Fem|Number=Sing|PronType=Prs det
   1 sua seu PRON Gender=Fem|Number=Sing|PronType=Prs xcomp
   3 suas meu DET Gender=Fem|Number=Plur|PronType=Prs det
 114 suas seu DET Gender=Fem|Number=Plur|PronType=Prs det
   2 teu teu DET Gender=Masc|Number=Sing|PronType=Prs det
   3 vossa vosso DET Gender=Fem|Number=Sing|PronType=Prs det
   2 vosso vosso DET Gender=Masc|Number=Sing|PronType=Prs det
leoalenc commented 2 years ago

discutimos recentemente esta questão para os artigos/det e temos também os pronomes possessivos:

  1. deveriamos usar det:poss
  2. deveriamos usar Poss=Yes
  3. deveriamos normalizar lemma

@leoalenc poderiamos pensar em colocar pronomes, artigos e preposições no MorphoBr?! Seria uma forma interessante de ajudar na revisão do corpus e de baixo custo para estas palavras funcionais.

% awk '$5 ~ /<poss>/ {print $2,$3,$4,$6,$8}' *.conllu | sort | uniq -c
   4 Meu meu DET Gender=Masc|Number=Sing|PronType=Prs det
   3 Minha meu DET Gender=Fem|Number=Sing|PronType=Prs det
   3 Nossa nosso DET Gender=Fem|Number=Sing|PronType=Prs det
   2 Nosso nosso DET Gender=Masc|Number=Sing|PronType=Prs det
   8 Seu seu DET Gender=Masc|Number=Sing|PronType=Prs det
   1 Seus seu DET Gender=Masc|Number=Plur|PronType=Prs det
   7 Sua seu DET Gender=Fem|Number=Sing|PronType=Prs det
   2 Suas seu DET Gender=Fem|Number=Plur|PronType=Prs det
  35 meu meu DET Gender=Masc|Number=Sing|PronType=Prs det
   3 meus meu DET Gender=Masc|Number=Plur|PronType=Prs det
   2 meus meu PRON Gender=Masc|Number=Plur|PronType=Prs obj
  24 minha meu DET Gender=Fem|Number=Sing|PronType=Prs det
   8 minhas meu DET Gender=Fem|Number=Plur|PronType=Prs det
  31 nossa nosso DET Gender=Fem|Number=Sing|PronType=Prs det
  10 nossas nosso DET Gender=Fem|Number=Plur|PronType=Prs det
   1 nossas nosso DET Gender=Fem|Number=Plur|PronType=Prs obl
  32 nosso nosso DET Gender=Masc|Number=Sing|PronType=Prs det
   1 nossos meu DET Gender=Masc|Number=Plur|PronType=Prs det
  24 nossos nosso DET Gender=Masc|Number=Plur|PronType=Prs det
   1 nossos nosso PRON Gender=Masc|Number=Plur|PronType=Prs nsubj
   1 nossos nosso PRON Gender=Masc|Number=Plur|PronType=Prs obl
   4 seu meu DET Gender=Masc|Number=Sing|PronType=Prs det
   1 seu seu DET Gender=Fem|Number=Sing|PronType=Prs det
 350 seu seu DET Gender=Masc|Number=Sing|PronType=Prs det
   2 seu seu PRON Gender=Masc|Number=Sing|PronType=Prs conj
   4 seus meu DET Gender=Masc|Number=Plur|PronType=Prs det
 171 seus seu DET Gender=Masc|Number=Plur|PronType=Prs det
   3 sua meu DET Gender=Fem|Number=Sing|PronType=Prs det
 428 sua seu DET Gender=Fem|Number=Sing|PronType=Prs det
   1 sua seu PRON Gender=Fem|Number=Sing|PronType=Prs xcomp
   3 suas meu DET Gender=Fem|Number=Plur|PronType=Prs det
 114 suas seu DET Gender=Fem|Number=Plur|PronType=Prs det
   2 teu teu DET Gender=Masc|Number=Sing|PronType=Prs det
   3 vossa vosso DET Gender=Fem|Number=Sing|PronType=Prs det
   2 vosso vosso DET Gender=Masc|Number=Sing|PronType=Prs det

@arademaker , sim, isso ficou por fazer todos esses anos! Acho que chegou a hora de incluirmos todas as classes faltantes no MorphoBr. Talvez uma boa issue para @analununes? O ponto de partida, ao meu ver, deve ser o DELAF-PB, complementando com outros recursos disponíveis, como o próprio Bosque.

wellington36 commented 2 years ago

Durante correções em #365, detectamos possiveis inconsistencias onde determinantes as, a, os e o tem lemma diferente de o: http://match.grew.fr/?corpus=UD_Portuguese-Bosque@dev&custom=619f9597b472a, me parecem em geral casos com lemma errado ou que podem ser PRON.