CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 1 forks source link

erros de `degree-upos` apontados pelo Udapi #463

Open heliolbs opened 1 month ago

heliolbs commented 1 month ago

Dentre os seis tipos de erro apontados pela ferramenta Udapi, levantados em #402 , houve 41 ocorrências de degree-upos: 38 relacionadas ao aumentativo, Degree=Aug, e três relacionadas ao diminutivo, Degree=Dim. Todas as ocorrências de aumentativo têm upos = NOUN e xpos = N, assim como duas das três de diminutivo. A única exceção é setaíra, que foi etiquetado com upos = PRON e xpos= INDQ. Ao ler a documentação da UD e analisar as 41 árvores, não consegui levantar nenhuma hipótese para a motivação do apontamento do bug. Foi necessário inspecionar o código em Python do bloco ud.MarkBugs.py. O trecho relevante pode ser lido abaixo:

if feats['Degree'] and upos not in ('ADJ', 'ADV'):
            self.log(node, 'degree-upos',
                     'Degree=%s upos!=ADJ|ADV (but %s)' % (feats['Degree'], upos))

Fica explícito que a semântica da verificação está excluindo o fenômeno de grau no contexto nominal mesmo que o primeiro parágrafo da documentação da UD deixe claro essa possibilidade:

Degree of comparison is typically an inflectional feature of some adjectives and adverbs. A different flavor of degree is diminutives and augmentatives, which often apply to nouns but are not restricted to them.

Seria o caso de abrir uma issue no repositório udapi-python, @leoalenc ? Talvez até um Pull Request? Se isso resolver esses casos, esses aparentes falsos positivos não mais contribuirão para a diminuição do escore udapi do valor da nota do banco de árvores a partir do próximo lançamento.

leoalenc commented 1 month ago

Dentre os seis tipos de erro apontados pela ferramenta Udapi, levantados em #402 , houve 41 ocorrências de degree-upos: 38 relacionadas ao aumentativo, Degree=Aug, e três relacionadas ao diminutivo, Degree=Dim. Todas as ocorrências de aumentativo têm upos = NOUN e xpos = N, assim como duas das três de diminutivo. A única exceção é setaíra, que foi etiquetado com upos = PRON e xpos= INDQ. Ao ler a documentação da UD e analisar as 41 árvores, não consegui levantar nenhuma hipótese para a motivação do apontamento do bug. Foi necessário inspecionar o código em Python do bloco ud.MarkBugs.py. O trecho relevante pode ser lido abaixo:

if feats['Degree'] and upos not in ('ADJ', 'ADV'):
            self.log(node, 'degree-upos',
                     'Degree=%s upos!=ADJ|ADV (but %s)' % (feats['Degree'], upos))

Fica explícito que a semântica da verificação está excluindo o fenômeno de grau no contexto nominal mesmo que o primeiro parágrafo da documentação da UD deixe claro essa possibilidade:

Degree of comparison is typically an inflectional feature of some adjectives and adverbs. A different flavor of degree is diminutives and augmentatives, which often apply to nouns but are not restricted to them.

Seria o caso de abrir uma issue no repositório udapi-python, @leoalenc ? Talvez até um Pull Request? Se isso resolver esses casos, esses aparentes falsos positivos não mais contribuirão para a diminuição do escore udapi do valor da nota do banco de árvores a partir do próximo lançamento.

@heliolbs , isso seria muito oportuno. O udapy deveria licenciar grau com substantivo:

if feats['Degree'] and upos not in ('ADJ', 'ADV','NOUN'):