LR-POR / PorGram

A Portuguese HPSG Grammar
Other
2 stars 1 forks source link

análise e geração de diminutivos #78

Open leoalenc opened 2 years ago

leoalenc commented 2 years ago

A partir de feliz.txt, amostra do MorphoBr com todas entradas com o lema adjetival feliz, o script em Python GrammarMatrixTools.py gera dois tipos de dados. O primeiro tipo são entradas lexicais no formato tdl:

feliz := uniform-adj-lex &
            [ STEM < "feliz" >,
            SYNSEM.LKEYS.KEYREL.PRED "_feliz_a_rel" ].
felizinho := dim-adj-lex &
            [ STEM < "felizinho" >,
            SYNSEM.LKEYS.KEYREL.PRED "_feliz_a_rel" ].
            SYNSEM.LKEYS.KEYREL.PRED "_feliz_a_rel" ].
felizão := aug-adj-lex &
            [ STEM < "felizão" >,
            SYNSEM.LKEYS.KEYREL.PRED "_feliz_a_rel" ].
felizãozinho := dim-aug-adj-lex &
            [ STEM < "felizãozinho" >,
            SYNSEM.LKEYS.KEYREL.PRED "_feliz_a_rel" ].

O segundo tipo são entradas de formas irregulares, a serem incorporadas ao arquivo my-irregs.tab:

felizezinha FEM-SUFFIX felizinho
felizezinhos A-PL-SUFFIX felizinho
felizoninha FEM-SUFFIX felizãozinho

O objetivo desta issue é corrigir os erros do script:

  1. é agramatical a forma felizezinha na entrada felizezinha FEM-SUFFIX felizinho
  2. não são geradas todas e somente as entradas necessárias para analisar e gerar as formas de adjetivo com lema feliz do MorphoBr
leoalenc commented 2 years ago

@arademaker, seria esta uma boa issue para @analununes?

leoalenc commented 2 years ago

Relaciona-se com #77. Comando para executar o script GrammarMatrixTools.py:

GrammarMatrixTools.py feliz.txt

leoalenc commented 2 years ago

No arquivo feliz-examples.txt estão sentenças com todas as formas do MorphoBr cujo lema é feliz. O código gerado pelo script permite analisar apenas 14 dos 18 exemplos. As seguintes sentenças não são analisadas:

11 a aluna felizinha sorriu 0 33 12 as alunas felizinhas dormem 0 42 14 os alunos felizinhos dormem 0 32 16 a aluna felizonazinha sorriu 0 31

Os resultados estão no arquivo feliz-examples-out-test.txt. Uma versão da gramática com o código modificado manualmente analisa todos os exemplos: feliz-examples-out-gold.txt

Para conseguir esses resultados, basta incluir estas entradas no arquivo de formas irregulares my-irregs.tab:

felizoninha FEM-SUFFIX felizãozinho
felizonazinha FEM-SUFFIX felizãozinho
felizezinhos A-PL-SUFFIX felizinho
felizinhos A-PL-SUFFIX felizinho
felizezinhas A-PL-SUFFIX felizinha
felizinhas A-PL-SUFFIX felizinha

Para comparação, apresento de novo as entradas geradas pelo script:

felizezinha FEM-SUFFIX felizinho
felizezinhos A-PL-SUFFIX felizinho
felizoninha FEM-SUFFIX felizãozinho
leoalenc commented 2 years ago

Os resultados acima refletem versão do script com correção do nome do tipo dim-adj-lex, que inexiste na gramática, sendo o nome correto non-unif-dim-adj-lex.

leoalenc commented 2 years ago

![Uploading adjective-hierarchy.png…]()

leoalenc commented 2 years ago

Amostra de teste do MorphoBr com todos os casos de formação de feminino e plural e de diminutivos, aumentativos e superlativos que tentei tratar por meio do script GrammarMatrixTools.py:

https://github.com/LR-POR/PorGram/blob/main/tools/sample.txt

leoalenc commented 2 years ago

Referências sobre a formação de diminutivos

MorphoBr

ALENCAR, Leonel Figueiredo de; CUCONATO, Bruno; RADEMAKER, Alexandre. MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese. Texto Livre: Linguagem e Tecnologia, Belo Horizonte, v.11, n. 3, p.1-25, set./dez. 2018.

Implementação: https://github.com/LR-POR/MorphoBr/tree/master/tools/fst

Principal base teórica da implementação de Alencar, Cuconato e Radeamker (2018)

VILLALVA, A.; SILVESTRE, J. P. Introdução ao estudo do léxico: descrição e análise do português. Petrópolis: Vozes, 2014.

RIO-TORTO, G. Formação de avaliativos. In: RIO-TORTO, G. et al. (Org.). Gramática derivacional do português. Coimbra: Imprensa da Universidade de Coimbra, 2016. p. 357-389.

Explicações para o público geral

Estas páginas apresentam uma boa quantidade dos fatos a serem implementados, mas não propõem uma modelagem formal (matemática):

https://www.normaculta.com.br/plural-dos-diminutivos/

https://g1.globo.com/educacao/blog/dicas-de-portugues/post/temas-polemicos-3.html

Aprofundamento

Trabalhos mais técnicos, de leitura mais difícil por conta da terminologia linguística, mas que apresentam um bom conjunto de fatos:

http://www.ai.mit.edu/projects/dm/bp/lee-diminutives.pdf

https://www.teses.usp.br/teses/disponiveis/8/8142/tde-13062017-161624/publico/2017_MessiasDosSantosSantana_VCorr.pdf

Essa última referência é uma tese extremamente abrangente que leva em conta também aspectos históricos.

leoalenc commented 2 years ago

Uma das limitações conhecidas da Grammar Matrix é que, no terreno da morfologia, se limita à morfotática [Goodman 2013], não permitindo modelar regras de alternância morfofonológica ou ortográfica [Beesley and Karttunen 2003]. Por exemplo, no questionário da Grammar Matrix, podemos modelar a formação da primeira pessoa do singular do presente do indicativo por meio da adjunção do sufixo o ao radical verbal. Essa regra funciona para um verbo como comprar. No entanto, não contempla nenhuma das formas da Listing 1.

NUNES, A. L.; RADEMAKER, A.; ALENCAR, L. F. de: Utilizando um dicionário morfológico para expandir a cobertura lexical de uma gramática do português no formalismo HPSG. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 13 , 2021. Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021. p. 11–18. DOI https://doi.org/10.5753/stil.2021.17779

Explicando:

MORFOTÁTICA: rápido + íssimo

MORFOFONOLOGIA (ALTERNÂNCIAS FONOLÓGICAS/ORTOGRÁFICAS): rápido + íssimo => rapidíssimo

BEESLEY, K. R.; KARTTUNEN, L. Finite state morphology. Stanford: CSLI, 2003.

No LKB, é possível modelar uma parte das alternâncias, substituindo um sufixo x por um sufixo y, como neste exemplo fictício:

superlative-suffix :=
%suffix (o íssimo)
superlative-lex-rule.

No entanto, não é possível formalizar a retirada do acento agudo do a da base rápido, a não ser que se formulasse uma regra desta forma:

superlative-suffix :=
%suffix (ápido apidíssimo)
superlative-lex-rule.

O problema é que, praticamente para cada derivado, se teria um novo padrão (x y):

superlative-suffix :=
; límpido limpidíssimo
%suffix (ápido apidíssimo) (ímpido impidíssimo)
superlative-lex-rule.
analununes commented 2 years ago

No entanto, não é possível formalizar a retirada do acento agudo do a da base rápido, a não ser que se formulasse uma regra desta forma:

superlative-suffix :=
%suffix (ápido apidíssimo)
superlative-lex-rule.

Vamos tratar esses casos de alternância fonológica/ortográfica como irregularidades na gramática?