UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
50 stars 12 forks source link

abreviações #312

Closed arademaker closed 3 years ago

arademaker commented 3 years ago
# sent_id = CF92-7#20
# text = , ed. Siciliano
 ╭─╼ , PUNCT _ punct
─┾ ed. NOUN Gender=Fem|Number=Sing appos
 ╰─╼ Siciliano PROPN Gender=Masc|Number=Sing appos

O token ed. deveria ter Abbr=Yes e lema editora. Outros casos semelhantes devem existir... Este issue foi identificado no contexto do issue #299

arademaker commented 3 years ago

Como ponto de partida, a query abaixo lista potenciais candidatos:

% awk '$1 ~ /^[0-9]/ && $2 ~ /[a-zA-Z]+\.$/ {print $2,$3,$4}' *.conllu | sort | uniq -c | sort -nr  | head -20
  24 P. p. NOUN
  20 R. r. NOUN
  15 S. S. PROPN
   8 etc. etc. ADV
   8 dr. dr. NOUN
   8 D. D. PROPN
   7 tel. tel. NOUN
   6 pág. pág. NOUN
   6 art. art. NOUN
   6 Jr. Jr. PROPN
   5 sr. sr. NOUN
   5 Av. Av. PROPN
   5 A. A. PROPN
   4 ed. ed. NOUN
   3 R. R. PROPN
   3 J. J. PROPN
   3 G. G. PROPN
   3 F. F. PROPN
   3 C. C. PROPN
   2 sáb. sáb. PROPN
arademaker commented 3 years ago

No commit a942b9344 resolvi a maior parte dos casos, incluindo duas tokenizações erradas.

arademaker commented 3 years ago

Commit cadb288f9 fixed typos introduced in the last commit. Thanks @vcvpaiva

arademaker commented 3 years ago

text = A Secretaria da Fazenda do Estado de São Paulo determinou que, quando um contribuinte realizar venda de mercadorias em feiras, exposições ou em locais chamados de «outlets» ou «feira de promoções» e permanecer na área determinada por mais de 60 dias, será obrigatória a inscrição do referido local no cadastro de contribuintes do ICMS (Fund. : portaria CAT 116/93). sent_id = CF391-2

I didn't find what Fund stands for.

arademaker commented 3 years ago

Commit e3f35059f praticamente fecha este issue. Existem alguns casos de nomes próprios que irão necessitar pesquisa na web..

arademaker commented 3 years ago

tokenização + abbr

% awk '$2 ~ /^[0-9]+[hsm]/ && $3 ~ /^[0-9]+[hsm]/ {print $2,$3,$4}' documents/*.conllu | sort | uniq -c | wc -l
      94

outros casos suspeitos:

 % awk '$2 ~ /.+[\.º]$/ && $3 ~ /.+[\.º]$/ {print $2,$3,$4}' documents/*.conllu | sort | uniq -c | wc -l
      88
arademaker commented 3 years ago

Em b6690921c outros casos de abreviações de nomes de dias da semana.

arademaker commented 3 years ago

Temos agora para fechar este issue apenas os casos

% awk '$1 ~ /^[0-9]/ && $2 ~ /[a-zA-Z]+\.$/ {print $2,$3,$4,$6}' documents/*.conllu | sort | uniq -c | sort -nr  | head
  24 P. p. NOUN Gender=Fem|Number=Sing
  20 R. r. NOUN Gender=Fem|Number=Sing

Para alguns casos, consideramos P. como Pergunta e R. como Resposta. Pode fazer isso para os demais casos, sempre verificando se faz sentido @wellington36?

wellington36 commented 3 years ago

Uma observação em geral quando temos P. ou R. é considerado como root, não me parece a melhor análise.

arademaker commented 3 years ago

Correto , não me parece melhor análise também. Mas temos que avaliar e revisar: 1) qual a relação usar; 2) quem deve ser dependent/governante da relação.

O caso em questão são sentenças (maioria? todas?) da parte do Público (português europeu) no formato

P. - qual seu esporte favorito? R. - adoro tênis

onde entendemos que trata-se de uma entrevista. E P. e R. parecem abreviações para "pergunta" e "resposta". No entanto, P. nem sempre introduz uma sentença interrogativa ou pelo menos claramente marcada como interrogativa com a interrogação. Logo P. também pode estar abreviando "Público" que é o nome do jornal Português de onde a parte do português europeu do Bosque foi tirado. Neste caso R. pode ser "respondente"?

Sobre as relações de dep de UD, em alguns casos estamos marcando como parataxis mas poderia list e dislocated também, me parece que só precisamos decidir por uma dado que a documentação não parece ser muito específica. Mas como também queremos alinhamento com outros corpora, seria bom pesquisar como outras línguas estão fazendo nestas construções.

Em uma alternativa mais radical, removeríamos estas partículas das sentenças entendo que elas são marcações da estrutura do texto como parágrafos ou notas de rodapé, não constituindo parte do texto.

arademaker commented 3 years ago

vou fechar este issue. reavaliando, acho que meu último comentário trata de outro assunto e praticamente todas as abreviações que encontramos foram corrigidas.