LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

related to #67, changes using haskell code: test lib #89

Closed arademaker closed 3 years ago

arademaker commented 3 years ago

@analununes qual teste adicional podemos fazer para garantir que não estamos perdendo dados com este merge?

analununes commented 3 years ago

@analununes qual teste adicional podemos fazer para garantir que não estamos perdendo dados com este merge?

@arademaker, pensei em testarmos se cada entrada de substantivos e adjetivos do atual MorphoBr se unifica com alguma entrada da versão simplificada. Vou fazer isso usando a NLTK em python.

analununes commented 3 years ago

@arademaker, pensei em testarmos se cada entrada de substantivos e adjetivos do atual MorphoBr se unifica com alguma entrada da versão simplificada. Vou fazer isso usando a NLTK em python.

@arademaker, neste commit implementei um script para essa verificação, não encontrei nenhum erro ao executar. Para termos certeza de que não perdemos informação, vou implementar a sugestão do @leoalenc, que é um script para reconstruir a versão anterior a partir da simplificada.

arademaker commented 3 years ago

Se este commit é apenas para verificação, e nenhum erro foi encontrado, porque os arquivos dict foram modificados?

analununes commented 3 years ago

@arademaker, não entendi... Não encontrei nenhuma modificação nos arquivos dict, onde vc as viu?

arademaker commented 3 years ago

Veja em https://github.com/LR-POR/MorphoBr/pull/89/files, aqui neste PR na aba files changed

analununes commented 3 years ago

As modificações nos arquivos dict não são deste commit?

analununes commented 3 years ago

@arademaker, implementei aqui uma função para reconstruir os adjetivos e substantivos a partir da versão simplificada. Comparando com os arquivos do MorphoBr encontrei dois erros e já adicionei a correção ao código, porém, ainda não atualizei os arquivos nesses branch. Alguns casos no MorphoBr me chamaram a atenção, acho que seria bom ter uma avaliação do @leoalenc:

vilanaz vilão+N+AUG+F+SG vilanaz vilão+N+AUG+M+SG vilanaz vilão+N+F+SG vilanazes vilão+N+AUG+F+PL vilanazes vilão+N+AUG+M+PL vilanazes vilão+N+F+PL

vilanaz vilanaz+A+F+SG vilanaz vilanaz+A+M+SG vilanaz vilão+A+AUG+F+SG vilanaz vilão+A+AUG+M+SG vilanaz vilão+A+F+SG vilanazes vilanaz+A+F+PL vilanazes vilanaz+A+M+PL vilanazes vilão+A+AUG+F+PL vilanazes vilão+A+AUG+M+PL vilanazes vilão+A+F+PL

Não está faltando vilanaz vilão+*+M+SG e vilanazes vilão+*+M+PL?

barbica barba+N+DIM+F+PL barbica barba+N+DIM+F+SG barbica barbica+N+F+SG barbicas barbica+N+F+PL

barbica barba+N+DIM+F+PL não deveria ser barbicas barba+N+DIM+F+PL?

fácies fácies+N+F+PL fácies fácies+N+M+PL fácies fácies+N+M+SG

Não está faltando fácies fácies+N+F+SG?

gama gama+N+F+SG gama gama+N+M+PL gama gama+N+M+SG

Não está faltando gama gama+N+F+PL?

triz triz+N+F+SG triz triz+N+M+PL triz triz+N+M+SG

Não está faltando triz triz+N+F+PL?

arademaker commented 3 years ago

encontrei dois erros e já adicionei a correção ao código, porém, ainda não atualizei os arquivos nesses branch.

Os erros no código de simplificação? Pode descrever os erros? Quanto estes erros impactam os dados?

Para triz, https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/triz/ diz ser masculino.

arademaker commented 3 years ago

Para gama também https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/gama/ ~diz ser masculino apenas~. Correção M e F.

arademaker commented 3 years ago

vamos esperar @leoalenc ... mas talvez fosse melhor abrir um issue especifico para estas questões @analununes ...

vcvpaiva commented 3 years ago

ah nao, "uma gama de sabores!!" claramente feminino

mas sim pra letra gama do grego ("o gama depois da velocidade v significa a constante da gravidade")

On Mon, May 31, 2021 at 12:00 PM Alexandre Rademaker < @.***> wrote:

Para gama também https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/gama/ diz ser masculino apenas.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/LR-POR/MorphoBr/pull/89#issuecomment-851638098, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAIZ3H7Y4YHKKUDUFA7BICLTQPMEJANCNFSM45VJGCNA .

vcvpaiva commented 3 years ago

o michaelis mesmo tem um exemplo "Há neste livro uma vasta gama de emoções desprezíveis."

portanto typo no michaelis mesmo!

On Mon, May 31, 2021 at 12:19 PM Valeria de Paiva @.***> wrote:

ah nao, "uma gama de sabores!!" claramente feminino

mas sim pra letra gama do grego ("o gama depois da velocidade v significa a constante da gravidade")

On Mon, May 31, 2021 at 12:00 PM Alexandre Rademaker < @.***> wrote:

Para gama também https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/gama/ diz ser masculino apenas.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/LR-POR/MorphoBr/pull/89#issuecomment-851638098, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAIZ3H7Y4YHKKUDUFA7BICLTQPMEJANCNFSM45VJGCNA .

analununes commented 3 years ago

Os erros no código de simplificação? Pode descrever os erros? Quanto estes erros impactam os dados?

@arademaker, sim, a simplificação fez com que, por exemplo, vilanazes vilão+A+AUG+F+PL vilanazes vilão+A+AUG+M+PL vilanazes vilão+A+F+PL fossem simplificadas para vilanazes vilão+A+PL.

Em nouns-tu.dict tinhamos:

vilanaz vilão+N+SG vilanazes vilão+N+PL

Mas o certo é:

vilanaz vilão+N+AUG+SG vilanaz vilão+N+F+SG vilanazes vilão+N+AUG+PL vilanazes vilão+N+F+PL

E, analogamente, em adjectives-su.dict tínhamos:

vilanaz vilão+A+SG vilanazes vilão+A+PL

E o certo é:

vilanaz vilão+A+AUG+SG vilanaz vilão+A+F+SG vilanazes vilão+A+AUG+PL vilanazes vilão+A+F+PL

Terei que fazer mais alterações pois as entradas fácies fácies+N+F+SG, gama gama+N+F+PL e triz triz+N+F+PL foram produzidas durante a reconstrução, então terei que ajustar as formas simplificadas.

arademaker commented 3 years ago

hum, @analununes o ideal seria corrigirmos os arquivos atuais antes de rodar a simplificação. O que não estou entendendo é a tag AUG para vilanaz.

arademaker commented 3 years ago

corrigi meu comentário acima sobre gama, @vcvpaiva está certa, me enganei olhando apenas primeira entrada do dicionário.

analununes commented 3 years ago

hum, @analununes o ideal seria corrigirmos os arquivos atuais antes de rodar a simplificação.

Ok!

O que não estou entendendo é a tag AUG para vilanaz.

O sufixo -az não é um indicador de grau aumentativo? Eu achei estranho ter uma entrada sem a tag AUG.

analununes commented 3 years ago

@arademaker e @vcvpaiva, neste site encontrei este exemplo:

"Raios gama. Radiações emitidas pelos corpos radioativos análogos aos raios X, muito mais penetrantes e de menor comprimento de onda, dotados de poderosa ação fisiológica.'

e é dada a seguinte classificação:

Classe gramatical: substantivo de dois gêneros e dois números

Então deveria ter gama gama+N+F+PL?

leoalenc commented 3 years ago

Os erros no código de simplificação? Pode descrever os erros? Quanto estes erros impactam os dados?

@arademaker, sim, a simplificação fez com que, por exemplo, vilanazes vilão+A+AUG+F+PL vilanazes vilão+A+AUG+M+PL vilanazes vilão+A+F+PL fossem simplificadas para vilanazes vilão+A+PL.

@analununes , curiosamente, a simplificação permitiu detectar a lacuna que você apontou acima na versão original! Em vários dicionários que consultei (ver lista abaixo), vilanaz é adjetivo uniforme (i.e., com a mesma forma para os dois gêneros, como capaz). A forma não é analisada como aumentativo, ver, por exemplo, o Aulete:

vilanaz (vi.la.naz) a2g.

  1. Em que predominam as qualidades de vilão (diz-se de pessoa).
  2. Aquele em que predominam as qualidades de vilão. [F.: vilão + naz, seg. o mod. erudito. Sin. ger.: vilanaço.]

Portanto, o lema é apenas vilanaz, apesar do sufixo az funcionar como aumentativo em outros casos. O meu script produziu as seguintes entradas, das quais as duas primeiras considero corretas:

~/MorphoBr/adjectives$ grep -P "^vilanaz" simplified-adjectives.dict 
vilanaz vilanaz+A+SG (corredo)
vilanazes   vilanaz+A+PL (corredo)
vilanaz vilão+A+SG (eliminar)
vilanazes   vilão+A+PL (eliminar)

Parece que a fonte do "erro" do meu script e do programa da @analununes foi o erro apontado no MorphoBr original, o que fez com que a tag de aumentativo fosse eliminada. Ver também: http://www.portaldalinguaportuguesa.org/simplesearch.php?action=lemma&lemma=42468&highlight=^vilanaz$ https://www.infopedia.pt/dicionarios/lingua-portuguesa/vilanaz

leoalenc commented 3 years ago

hum, @analununes o ideal seria corrigirmos os arquivos atuais antes de rodar a simplificação.

Ok!

O que não estou entendendo é a tag AUG para vilanaz.

O sufixo -az não é um indicador de grau aumentativo? Eu achei estranho ter uma entrada sem a tag AUG.

@analununes , bem observado. Contudo, az tem vários significados. No caso de vilanaz, não é analisado como aumentativo nos dicionários consultados. Veja o meu outro comentário.

analununes commented 3 years ago

hum, @analununes o ideal seria corrigirmos os arquivos atuais antes de rodar a simplificação.

Ok!

O que não estou entendendo é a tag AUG para vilanaz.

O sufixo -az não é um indicador de grau aumentativo? Eu achei estranho ter uma entrada sem a tag AUG.

@analununes , bem observado. Contudo, az tem vários significados. No caso de vilanaz, não é analisado como aumentativo nos dicionários consultados. Veja o meu outro comentário.

Agora entendi, obrigada!

O meu script produziu as seguintes entradas, das quais as duas primeiras considero corretas:

Ok! Vou remover a correção que fiz para esses casos.

leoalenc commented 3 years ago

@arademaker e @vcvpaiva, neste site encontrei este exemplo:

"Raios gama. Radiações emitidas pelos corpos radioativos análogos aos raios X, muito mais penetrantes e de menor comprimento de onda, dotados de poderosa ação fisiológica.'

e é dada a seguinte classificação:

Classe gramatical: substantivo de dois gêneros e dois números

Então deveria ter gama gama+N+F+PL?

@arademaker e @analununes, em raios gama, gama não me parece constituir adjetivo, mas, sim, substantivo (a letra grega, que, por sua vez, simboliza esse tipo de radiação):

https://www.infopedia.pt/dicionarios/lingua-portuguesa/gama https://www.aulete.com.br/gama

arademaker commented 3 years ago

Estou fechando este PR que agora está em conflito com o MASTER.