Closed arademaker closed 3 years ago
Como ponto de partida, a query abaixo lista potenciais candidatos:
% awk '$1 ~ /^[0-9]/ && $2 ~ /[a-zA-Z]+\.$/ {print $2,$3,$4}' *.conllu | sort | uniq -c | sort -nr | head -20
24 P. p. NOUN
20 R. r. NOUN
15 S. S. PROPN
8 etc. etc. ADV
8 dr. dr. NOUN
8 D. D. PROPN
7 tel. tel. NOUN
6 pág. pág. NOUN
6 art. art. NOUN
6 Jr. Jr. PROPN
5 sr. sr. NOUN
5 Av. Av. PROPN
5 A. A. PROPN
4 ed. ed. NOUN
3 R. R. PROPN
3 J. J. PROPN
3 G. G. PROPN
3 F. F. PROPN
3 C. C. PROPN
2 sáb. sáb. PROPN
No commit a942b9344 resolvi a maior parte dos casos, incluindo duas tokenizações erradas.
Commit cadb288f9 fixed typos introduced in the last commit. Thanks @vcvpaiva
text = A Secretaria da Fazenda do Estado de São Paulo determinou que, quando um contribuinte realizar venda de mercadorias em feiras, exposições ou em locais chamados de «outlets» ou «feira de promoções» e permanecer na área determinada por mais de 60 dias, será obrigatória a inscrição do referido local no cadastro de contribuintes do ICMS (Fund. : portaria CAT 116/93). sent_id = CF391-2
I didn't find what Fund
stands for.
Commit e3f35059f praticamente fecha este issue. Existem alguns casos de nomes próprios que irão necessitar pesquisa na web..
tokenização + abbr
% awk '$2 ~ /^[0-9]+[hsm]/ && $3 ~ /^[0-9]+[hsm]/ {print $2,$3,$4}' documents/*.conllu | sort | uniq -c | wc -l
94
outros casos suspeitos:
% awk '$2 ~ /.+[\.º]$/ && $3 ~ /.+[\.º]$/ {print $2,$3,$4}' documents/*.conllu | sort | uniq -c | wc -l
88
Em b6690921c outros casos de abreviações de nomes de dias da semana.
Temos agora para fechar este issue apenas os casos
% awk '$1 ~ /^[0-9]/ && $2 ~ /[a-zA-Z]+\.$/ {print $2,$3,$4,$6}' documents/*.conllu | sort | uniq -c | sort -nr | head
24 P. p. NOUN Gender=Fem|Number=Sing
20 R. r. NOUN Gender=Fem|Number=Sing
Para alguns casos, consideramos P.
como Pergunta
e R.
como Resposta
. Pode fazer isso para os demais casos, sempre verificando se faz sentido @wellington36?
Uma observação em geral quando temos P.
ou R.
é considerado como root, não me parece a melhor análise.
Correto , não me parece melhor análise também. Mas temos que avaliar e revisar: 1) qual a relação usar; 2) quem deve ser dependent/governante da relação.
O caso em questão são sentenças (maioria? todas?) da parte do Público (português europeu) no formato
P. - qual seu esporte favorito? R. - adoro tênis
onde entendemos que trata-se de uma entrevista. E P. e R. parecem abreviações para "pergunta" e "resposta". No entanto, P. nem sempre introduz uma sentença interrogativa ou pelo menos claramente marcada como interrogativa com a interrogação. Logo P. também pode estar abreviando "Público" que é o nome do jornal Português de onde a parte do português europeu do Bosque foi tirado. Neste caso R. pode ser "respondente"?
Sobre as relações de dep de UD, em alguns casos estamos marcando como parataxis mas poderia list e dislocated também, me parece que só precisamos decidir por uma dado que a documentação não parece ser muito específica. Mas como também queremos alinhamento com outros corpora, seria bom pesquisar como outras línguas estão fazendo nestas construções.
Em uma alternativa mais radical, removeríamos estas partículas das sentenças entendo que elas são marcações da estrutura do texto como parágrafos ou notas de rodapé, não constituindo parte do texto.
vou fechar este issue. reavaliando, acho que meu último comentário trata de outro assunto e praticamente todas as abreviações que encontramos foram corrigidas.
O token
ed.
deveria terAbbr=Yes
e lemaeditora
. Outros casos semelhantes devem existir... Este issue foi identificado no contexto do issue #299