Closed arademaker closed 3 years ago
@analununes qual teste adicional podemos fazer para garantir que não estamos perdendo dados com este merge?
@arademaker, pensei em testarmos se cada entrada de substantivos e adjetivos do atual MorphoBr se unifica com alguma entrada da versão simplificada. Vou fazer isso usando a NLTK em python.
@arademaker, pensei em testarmos se cada entrada de substantivos e adjetivos do atual MorphoBr se unifica com alguma entrada da versão simplificada. Vou fazer isso usando a NLTK em python.
@arademaker, neste commit implementei um script para essa verificação, não encontrei nenhum erro ao executar. Para termos certeza de que não perdemos informação, vou implementar a sugestão do @leoalenc, que é um script para reconstruir a versão anterior a partir da simplificada.
Se este commit é apenas para verificação, e nenhum erro foi encontrado, porque os arquivos dict foram modificados?
@arademaker, não entendi... Não encontrei nenhuma modificação nos arquivos dict, onde vc as viu?
Veja em https://github.com/LR-POR/MorphoBr/pull/89/files, aqui neste PR na aba files changed
As modificações nos arquivos dict não são deste commit?
@arademaker, implementei aqui uma função para reconstruir os adjetivos e substantivos a partir da versão simplificada. Comparando com os arquivos do MorphoBr encontrei dois erros e já adicionei a correção ao código, porém, ainda não atualizei os arquivos nesses branch. Alguns casos no MorphoBr me chamaram a atenção, acho que seria bom ter uma avaliação do @leoalenc:
vilanaz vilão+N+AUG+F+SG
vilanaz vilão+N+AUG+M+SG
vilanaz vilão+N+F+SG
vilanazes vilão+N+AUG+F+PL
vilanazes vilão+N+AUG+M+PL
vilanazes vilão+N+F+PL
vilanaz vilanaz+A+F+SG
vilanaz vilanaz+A+M+SG
vilanaz vilão+A+AUG+F+SG
vilanaz vilão+A+AUG+M+SG
vilanaz vilão+A+F+SG
vilanazes vilanaz+A+F+PL
vilanazes vilanaz+A+M+PL
vilanazes vilão+A+AUG+F+PL
vilanazes vilão+A+AUG+M+PL
vilanazes vilão+A+F+PL
Não está faltando vilanaz vilão+*+M+SG
e vilanazes vilão+*+M+PL
?
barbica barba+N+DIM+F+PL
barbica barba+N+DIM+F+SG
barbica barbica+N+F+SG
barbicas barbica+N+F+PL
barbica barba+N+DIM+F+PL
não deveria ser barbicas barba+N+DIM+F+PL
?
fácies fácies+N+F+PL
fácies fácies+N+M+PL
fácies fácies+N+M+SG
Não está faltando fácies fácies+N+F+SG
?
gama gama+N+F+SG
gama gama+N+M+PL
gama gama+N+M+SG
Não está faltando gama gama+N+F+PL
?
triz triz+N+F+SG
triz triz+N+M+PL
triz triz+N+M+SG
Não está faltando triz triz+N+F+PL
?
encontrei dois erros e já adicionei a correção ao código, porém, ainda não atualizei os arquivos nesses branch.
Os erros no código de simplificação? Pode descrever os erros? Quanto estes erros impactam os dados?
Para triz
, https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/triz/ diz ser masculino.
Para gama
também https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/gama/ ~diz ser masculino apenas~. Correção M e F.
vamos esperar @leoalenc ... mas talvez fosse melhor abrir um issue especifico para estas questões @analununes ...
ah nao, "uma gama de sabores!!" claramente feminino
mas sim pra letra gama do grego ("o gama depois da velocidade v significa a constante da gravidade")
On Mon, May 31, 2021 at 12:00 PM Alexandre Rademaker < @.***> wrote:
Para gama também https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/gama/ diz ser masculino apenas.
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/LR-POR/MorphoBr/pull/89#issuecomment-851638098, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAIZ3H7Y4YHKKUDUFA7BICLTQPMEJANCNFSM45VJGCNA .
o michaelis mesmo tem um exemplo "Há neste livro uma vasta gama de emoções desprezíveis."
portanto typo no michaelis mesmo!
On Mon, May 31, 2021 at 12:19 PM Valeria de Paiva @.***> wrote:
ah nao, "uma gama de sabores!!" claramente feminino
mas sim pra letra gama do grego ("o gama depois da velocidade v significa a constante da gravidade")
On Mon, May 31, 2021 at 12:00 PM Alexandre Rademaker < @.***> wrote:
Para gama também https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/gama/ diz ser masculino apenas.
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/LR-POR/MorphoBr/pull/89#issuecomment-851638098, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAIZ3H7Y4YHKKUDUFA7BICLTQPMEJANCNFSM45VJGCNA .
Os erros no código de simplificação? Pode descrever os erros? Quanto estes erros impactam os dados?
@arademaker, sim, a simplificação fez com que, por exemplo, vilanazes vilão+A+AUG+F+PL
vilanazes vilão+A+AUG+M+PL
vilanazes vilão+A+F+PL
fossem simplificadas para vilanazes vilão+A+PL
.
Em nouns-tu.dict tinhamos:
vilanaz vilão+N+SG
vilanazes vilão+N+PL
Mas o certo é:
vilanaz vilão+N+AUG+SG
vilanaz vilão+N+F+SG
vilanazes vilão+N+AUG+PL
vilanazes vilão+N+F+PL
E, analogamente, em adjectives-su.dict tínhamos:
vilanaz vilão+A+SG
vilanazes vilão+A+PL
E o certo é:
vilanaz vilão+A+AUG+SG
vilanaz vilão+A+F+SG
vilanazes vilão+A+AUG+PL
vilanazes vilão+A+F+PL
Terei que fazer mais alterações pois as entradas fácies fácies+N+F+SG
, gama gama+N+F+PL
e triz triz+N+F+PL
foram produzidas durante a reconstrução, então terei que ajustar as formas simplificadas.
hum, @analununes o ideal seria corrigirmos os arquivos atuais antes de rodar a simplificação. O que não estou entendendo é a tag AUG para vilanaz.
corrigi meu comentário acima sobre gama, @vcvpaiva está certa, me enganei olhando apenas primeira entrada do dicionário.
hum, @analununes o ideal seria corrigirmos os arquivos atuais antes de rodar a simplificação.
Ok!
O que não estou entendendo é a tag AUG para vilanaz.
O sufixo -az
não é um indicador de grau aumentativo? Eu achei estranho ter uma entrada sem a tag AUG.
@arademaker e @vcvpaiva, neste site encontrei este exemplo:
"Raios gama. Radiações emitidas pelos corpos radioativos análogos aos raios X, muito mais penetrantes e de menor comprimento de onda, dotados de poderosa ação fisiológica.'
e é dada a seguinte classificação:
Classe gramatical: substantivo de dois gêneros e dois números
Então deveria ter gama gama+N+F+PL
?
Os erros no código de simplificação? Pode descrever os erros? Quanto estes erros impactam os dados?
@arademaker, sim, a simplificação fez com que, por exemplo,
vilanazes vilão+A+AUG+F+PL
vilanazes vilão+A+AUG+M+PL
vilanazes vilão+A+F+PL
fossem simplificadas paravilanazes vilão+A+PL
.@analununes , curiosamente, a simplificação permitiu detectar a lacuna que você apontou acima na versão original! Em vários dicionários que consultei (ver lista abaixo), vilanaz é adjetivo uniforme (i.e., com a mesma forma para os dois gêneros, como capaz). A forma não é analisada como aumentativo, ver, por exemplo, o Aulete:
vilanaz (vi.la.naz) a2g.
- Em que predominam as qualidades de vilão (diz-se de pessoa).
- Aquele em que predominam as qualidades de vilão. [F.: vilão + naz, seg. o mod. erudito. Sin. ger.: vilanaço.]
Portanto, o lema é apenas vilanaz, apesar do sufixo az funcionar como aumentativo em outros casos. O meu script produziu as seguintes entradas, das quais as duas primeiras considero corretas:
~/MorphoBr/adjectives$ grep -P "^vilanaz" simplified-adjectives.dict
vilanaz vilanaz+A+SG (corredo)
vilanazes vilanaz+A+PL (corredo)
vilanaz vilão+A+SG (eliminar)
vilanazes vilão+A+PL (eliminar)
Parece que a fonte do "erro" do meu script e do programa da @analununes foi o erro apontado no MorphoBr original, o que fez com que a tag de aumentativo fosse eliminada. Ver também: http://www.portaldalinguaportuguesa.org/simplesearch.php?action=lemma&lemma=42468&highlight=^vilanaz$ https://www.infopedia.pt/dicionarios/lingua-portuguesa/vilanaz
hum, @analununes o ideal seria corrigirmos os arquivos atuais antes de rodar a simplificação.
Ok!
O que não estou entendendo é a tag AUG para vilanaz.
O sufixo
-az
não é um indicador de grau aumentativo? Eu achei estranho ter uma entrada sem a tag AUG.
@analununes , bem observado. Contudo, az tem vários significados. No caso de vilanaz, não é analisado como aumentativo nos dicionários consultados. Veja o meu outro comentário.
hum, @analununes o ideal seria corrigirmos os arquivos atuais antes de rodar a simplificação.
Ok!
O que não estou entendendo é a tag AUG para vilanaz.
O sufixo
-az
não é um indicador de grau aumentativo? Eu achei estranho ter uma entrada sem a tag AUG.@analununes , bem observado. Contudo, az tem vários significados. No caso de vilanaz, não é analisado como aumentativo nos dicionários consultados. Veja o meu outro comentário.
Agora entendi, obrigada!
O meu script produziu as seguintes entradas, das quais as duas primeiras considero corretas:
Ok! Vou remover a correção que fiz para esses casos.
@arademaker e @vcvpaiva, neste site encontrei este exemplo:
"Raios gama. Radiações emitidas pelos corpos radioativos análogos aos raios X, muito mais penetrantes e de menor comprimento de onda, dotados de poderosa ação fisiológica.'
e é dada a seguinte classificação:
Classe gramatical: substantivo de dois gêneros e dois números
Então deveria ter
gama gama+N+F+PL
?
@arademaker e @analununes, em raios gama, gama não me parece constituir adjetivo, mas, sim, substantivo (a letra grega, que, por sua vez, simboliza esse tipo de radiação):
https://www.infopedia.pt/dicionarios/lingua-portuguesa/gama https://www.aulete.com.br/gama
Estou fechando este PR que agora está em conflito com o MASTER.
@analununes qual teste adicional podemos fazer para garantir que não estamos perdendo dados com este merge?