cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

pronomes #57

Open arademaker opened 4 years ago

arademaker commented 4 years ago
% awk '$2 ~ /^(me|lhe)$/ {print $2,$3,$8}' *.conllu | sort | uniq -c
   3 lhe ela advmod
   2 lhe ela case
   5 lhe ela det
   2 lhe ela flat:name
 710 lhe ela iobj
   1 lhe ela nsubj
   3 lhe ela nsubj:pass
  18 lhe ela obj
   1 lhe ela obl
   1 lhe ele appos
   1 lhe ele case
   1 lhe ele fixed
   3 lhe ele flat:name
1682 lhe ele iobj
   1 lhe ele nmod
   1 lhe ele nsubj
  15 lhe ele obj
   3 lhe ele obl
   1 lhe ele root
  24 lhe ele/ela iobj
   4 lhe lher root
   1 me eu det
   1 me eu flat:name
  43 me eu iobj
   7 me eu nsubj
   3 me eu nsubj:pass
 128 me eu obj
   1 me eu obl
   1 me eu xcomp
   1 me me det

Vide https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/42. Problemas do Bosque refletidos aqui. Um tipo de conferencia possivel.

lucasrct commented 4 years ago

Interessante, nota que tem um "lhe" que foi taggeado como verbo provavelmente.

4 lhe lher root

É uma tarefa simples de corrigir com um programa. Me pergunto o quando a lematização impacta na análise de dependências.

arademaker commented 4 years ago

Espero que vcs estejam watching no http://github.com/universaldependencies/UD_Portuguese-Bosque. Fiz agora algumas revisões de umas 10-15 frases onde tínhamos lhe com lemas diversos. O lhe é fácil, sempre deve ser iobj e lema ele variando apenas as features podendo ser Masc, Fem ou Unsp .

arademaker commented 4 years ago

@lucasrct , como vc observou, temos mesmo quatro casos de root como VERB. Todos os casos são cabia-lhe.... Embora no bosque existam casos de caber, nunca aparece a forma flexionada cabia. E temos no morpho-br. Seria interessante avaliar o que ocorre com estas frases quando vc fixa que cabia tem que ser VERB com lema caber (info do MorphoBr e neste caso pode usar porque não existe outra análise para cabia). No caso das features, Morpho-Br te diz que pode ser 1, 2 o 3 pessoa. Se não colocarmos features o que o parser faz?

Mas infelizmente este é o único caso onde podemos tentar evitar usando o https://github.com/LFG-PTBR/MorphoBr e controlando POS tag antes de parsing do UDPipe, para todos os demais casos do lhe, temos erros sintáticos mas ele está corretamente analisado como pronome.

% awk '$2 ~ /^(me|lhe)$/ {print $2,$3,$4,$8}' *.conllu | sort | uniq -c
   3 lhe ela PRON advmod
   2 lhe ela PRON case
   5 lhe ela PRON det
   2 lhe ela PRON flat:name
 710 lhe ela PRON iobj
   1 lhe ela PRON nsubj
   3 lhe ela PRON nsubj:pass
  18 lhe ela PRON obj
   1 lhe ela PRON obl
   1 lhe ele PRON appos
   1 lhe ele PRON case
   1 lhe ele PRON fixed
   3 lhe ele PRON flat:name
1682 lhe ele PRON iobj
   1 lhe ele PRON nmod
   1 lhe ele PRON nsubj
  15 lhe ele PRON obj
   3 lhe ele PRON obl
   1 lhe ele PRON root
  24 lhe ele/ela PRON iobj
   4 lhe lher VERB root
   1 me eu PRON det
   1 me eu PRON flat:name
  43 me eu PRON iobj
   7 me eu PRON nsubj
   3 me eu PRON nsubj:pass
 128 me eu PRON obj
   1 me eu PRON obl
   1 me eu PRON xcomp
   1 me me PRON det

A grande maioria dos casos, 1682, acaba tendo a analise esperada, iobj e PRON com lema ele. Os 720 casos com lema ela são esperados decorrentes da inconsistencia do Bosque. O resto o parser se perdeu na frase... possivelmente estas são frases boas para rever.

lucasrct commented 4 years ago

EDIT: Fiz essas análises no corpus do bosque e não no DHBB. Achei que era outro issue, no git do UD-Bosque, de qlqr maneira, da para corrigir mais sentenças no bosque com isso.

@aradmaker Eu fiz essa mesma conta e obtive resultados um pouco diferentes

awk '$2 ~ /^(me|lhe)$/ {print $4, $3, $2, $8}' *.conllu | sort | uniq -c
66 PRON ela lhe iobj
12 PRON ele/ela lhe iobj
188 PRON ele lhe iobj
58 PRON eu me iobj
2 PRON eu me nsubj
118 PRON eu me obj
1 PRON me me flat:name
1 PRON me me obj
2 PROPN me me nmod

Será pela nova correçao que saiu? Estão bem mais coerentes. Mais algumas análises, alguns tokens considerados verbos mas que não estão no morphobr

mista: 4
estréia: 4
impôr: 2
reutiliza: 1
pasando: 1
subordinanda: 1
indiferenciada: 1
re-afirma: 1
há-: 1
recohidas: 1
distribuíu: 1
despolitizar: 1
saiem: 1
afectos: 1
assessoriada: 1
Acabadinho: 1
contribuiram: 1
hão-: 1
diminuíu: 1
autopunir: 1
auto-excluiu: 1
vocacionado: 1
autoparodiar: 1
mangueire: 1
abanadonada: 1
faconteceu: 1
zapar: 1
Zapo: 1
rezapo: 1
construíndo: 1
destribuído: 1
atribuiam: 1
intrevêm: 1
anuíu: 1
comnporte: 1
concluida: 1
Eis: 1
supôr: 1
distribuidos: 1
cumprimimos: 1
atribuidas: 1
apariceu: 1
recém-nomeado: 1
buscarse: 1
standardizado: 1
priorizar: 1
produzí: 1
empuleirasse: 1
abandonassse: 1
desgravar: 1
sampleadas: 1
credenciados: 1
reembalar: 1
conveniada: 1
zerou: 1
desinterditou: 1
inugurada: 1
candidatos: 1
acessar: 1
amplida: 1
priorizou: 1
monitoradas: 1
existentes: 1
pré-qualificadas: 1
indiferência: 1
incluiam: 1
recém-eleito: 1
constróem: 1
cumprí: 1
vocacionados: 1
pertência: 1
claçando: 1
conluir: 1
desestimular: 1
priorizo: 1
Recém-promovido: 1
assitir: 1

Observe o primeiro, mista. Um exemplo onde aparece:

text = Vieira Nery julga que as decisões deverão ser tomadas por uma comissão mista que envolva o Estado e «avaliadores exteriores». Aqui mista está como verbo misturar no particípio, para mim faz mais sentido mista ser um adjetivo, não? Dá para achar alguns erros de português aí também. São poucos, no entanto. A lista abaixo é de lematizações de verbos que não estão no infinitivo (ou o infinitivo não está presente no morphobr)

ligado: 4
esprimir: 3
atinjir: 2
preso: 2
associado: 2
destinado: 2
derrotado: 1
conhecido: 1
seja: 1
submetido: 1
envolvido: 1
seguer: 1
consagrado: 1
quer: 1
ganha: 1
é: 1
estimado: 1
foi: 1
propôr: 1
despedacer: 1
vendir: 1
convencido: 1
chamado: 1
combinado: 1
videre: 1
receiar: 1
vençer: 1
reunido: 1
interessado: 1
passado: 1
relacionado: 1
preocupado: 1
irritado: 1
conectado: 1
apaixonado: 1
aberto: 1
comprometido: 1
erra: 1
vence: 1
acostumado: 1
livre: 1
aceito: 1
baseado: 1
verificado: 1

Alguns erros de português também. Dá para corrigir quase todos usando alguma regra. Um exemplo do ligado text = O cantor não esteve livre do assédio e do culto de seus fãs nem mesmo durante os dois anos em que esteve ligado ao exército. Ligado neste caso foi considerado corretamente como verbo, mas lematizado errado.

lucasrct commented 4 years ago

No caso das features, Morpho-Br te diz que pode ser 1, 2 o 3 pessoa. Se não colocarmos features o que o parser faz?

Não sei, mas as features são parte do modelo tagger. Não sei se são usadas para a análise de dependências, vou dar uma lida no artigo do UDpipe. O GSD não tem nenhuma feature.

lucasrct commented 4 years ago

Quanto à correção das deprels, talvez seja mais interessante analisar o porquê delas estarem erradas (talvez a deprel errada seja só consequência de algum erro prévio, como erro no texto ou até mesmo erro na POS) e não corigir as deprels, que são o "fim" do processo, na mão.