LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

temos casos de formas sem plural? #68

Open arademaker opened 4 years ago

arademaker commented 4 years ago

Vide comentário no issue #61.

Será que teremos casos de palavras que não tem plural? Neste caso como sinalizar?

leoalenc commented 4 years ago

@arademaker e @lucasrct, como já sugeri antes, precisamos elaborar um script que faça essa checagem para os substantivos e adjetivos. Defendo que todo substantivo e todo adjetivo da língua portuguesa deve ter um plural, mesmo nomes próprios, porque, eventualmente, essas palavras podem vir a ser usadas no plural. Em muitos casos, a forma do plural vai ser igual à do singular. Por exemplo, todo nome de lugar pode ser usado na seguinte estrutura:

Não há apenas uma Alemanha, mas várias Alemanhas, pois cada região do país tem suas especificidades; por exemplo, a Alemanha do Norte é bem diferente da Alemanha do Sul.

Exemplos desse tipo não são incomuns em corpora. Curiosamente, o corretor ortográfico do iPhone não reconhece a palavra Alemanha no plural, sublinhando-a de vermelho… Uma limitação que o nosso recurso permite superar. No atual desenho do conjunto de etiquetas que utilizamos, seguindo o principal recurso do qual partimos, só temos etiquetas de singular e plural, o que implica que mesmo formas repetidas devem ser listadas. Exemplos disso: o substantivo lápis e o adjetivo simples. O mesmo problema de repetição é muito frequente no caso do gênero, ver dentista e inteligente. Particularmente, não consideraria uma prioridade agora a revisão das etiquetas, para incluir uma terceira etiqueta de número e uma terceira etiqueta de gênero, para os casos de formas idênticas. Podemos abrir uma questão de longo prazo pra pensar sobre isso no futuro, quando tivermos claramente definida a aplicação sintática do recurso. É claro que as repetições aumentam o tamanho do recurso em arquivo de texto, mas essa repetição é em grande parte eliminada quando convertemos a lista para autômato de estados finitos. Outra investigação interessante seria fazer um levantamento das formas de plural sem singular! Um desses casos é a palavra óculos na língua culta, cujo lema é óculos e não tem singular. No nosso recurso temos:

~/MorphoBr$ grep -E "^óculos?" nouns/*.dict nouns/j-p.delaf.dict:óculo óculo+N+M+SG nouns/j-p.delaf.dict:óculos óculo+N+M+PL nouns/nouns.gfl.dict:óculos óculos+N+M+PL nouns/nouns.gfl.dict:óculos óculos+N+M+SG

Ao meu ver, essa modelagem está correta: as duas primeiras entradas representam o singular e o plural do lema óculo, a terceira entrada constitui a única forma existente na língua culta do lema óculos, e a última entrada é a forma do singular de óculos na língua coloquial.

leoalenc commented 4 years ago

@arademaker e @lucasrct, se o script referido acima apontar formas de substantivos ou adjetivos sem plural, precisamos corrigir isso, porque senão vou continuar obtendo erros na derivação de diminutivos.

arademaker commented 3 years ago

Acima vc disse e a última entrada é a forma do singular de óculos na língua coloquial. na verdade a primeira né?

arademaker commented 3 years ago

Na forma atual do recurso, depois do issue #67 os exemplos que @leoalenc, na discussão de duplicidates, foram tratados e ficaram:

5639 óculos óculo+N+M+PL
5640 óculo  óculo+N+M+SG
5644 óculos óculos+N+M

12435 lápis lápis+N+M

11817 simples   simples+N
4042 simples    simples+A

18745 simples   simples+ADV

Para simples como N, temos uma entrada em http://wn.mybluemix.net/synset?id=12212690-n que justifica e https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/simples/.

Para dentista temos:

3187 dentistas  dentista+N+PL
3188 dentista   dentista+N+SG

Para inteligente não temos agora repetição de gênero nos substantivos nem nos adjetivos:

nouns/nouns-inf.dict
3226 inteligentes   inteligente+N+PL
3227 inteligente    inteligente+N+SG

adjectives/adjectives-imp.dict
14759inteligentes   inteligente+A+PL
14760inteligente    inteligente+A+SG
leoalenc commented 3 years ago

Acima vc disse e a última entrada é a forma do singular de óculos na língua coloquial. na verdade a primeira né?

@arademaker, na linguagem coloquial, costumamos ouvir ou ler coisas como preciso de um óculos novo, o que é contemplado pela seguinte entrada, a ultima das mencionadas naquele comentário meu:

nouns/nouns.gfl.dict:óculos óculos+N+M+SG

arademaker commented 3 years ago

Claro agora, achei que a forma óculo era a que vc considerava coloquial.

analununes commented 3 years ago

@arademaker e @leoalenc, neste commit implementei uma função que lista casos em que o número de formas no plural é diferente do número de formas no singular para um mesmo lema, portanto aponta formas sem plural e formas sem singular. Essa função compara a lista de lema+tags sem duplicações, isso para evitar listar casos como florzinhas e florezinhas que gerariam falso erro por ter uma forma a mais no plural. A função produz um documento em que a cada linha são listadas as entradas de um lema que não possuía número de formas no plural igual ao número de formas no singular, se quiserem posso mudar o formato.

portes-pagos    portes-pagos+N+M+PL, portes-pagosinhos  portes-pagos+N+DIM+M+PL, portes-pagosinhas  portes-pagos+N+DIM+F+PL
posses  posses+N+F+PL
posteriori  posteriori+N+M+SG, posteriorizinho  posteriori+N+DIM+M+SG
postiços    postiços+N+M+PL, postiçosinhos  postiços+N+DIM+M+PL, postiçosinhas  postiços+N+DIM+F+PL
postres postres+N+M+PL, postresinhos    postres+N+DIM+M+PL, postresinhas    postres+N+DIM+F+PL
poucas  poucas+N+F+PL

Alguns dos casos listados parecem ser de erro no lema como posses e poucas. Obs.: para substantivos foram listados 1574 casos e para adjetivos 115 casos.