LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

palavras compostas #37

Open odanoburu opened 6 years ago

odanoburu commented 6 years ago

no DELACF (ainda não incorporado ao MorphoBr) me parece que há análises (ou pelo menos tags) diferentes:

abaixa-luz,abaixa-luz.N+VN:ms

enquanto no GFL (já no formato morphoBR):

antero-posteriores,antero-posterior.A+NA:mp:fp
abaixa-luz      abaixa-luz+N+M+SG

talvez fosse interessante incorporar o DELACF, harmonizando as tags.

leoalenc commented 6 years ago

@odanoburu Sim, com certeza, isso é muito importante! No caso de abaixa-luz , o dicionário de São Carlos faz uma confusão: A etiqueta de classe de palavras deve ser substantivo, como no recurso europeu. É isso que interessa para o processamento sintático posterior. A informação de que se trata de um palavra composta de um substantivo e um verbo não é relevante para a sintaxe. De fato, no modelo da gramática léxico-funcional, as palavras são consideradas átomos na sintaxe, esse componente não tem acesso à estrutura interna das palavras compostas ou derivadas. A respeito desse tipo de exemplo , creio que há consenso entre os diferentes modelos teóricos linguísticos. No entanto, pensando em outros tipos de aplicações, eu acharia interessante preservar a informação que o dicionário de São Carlos traz a respeito da natureza da composição. Teremos que pensar então numa etiqueta que possa ser desprezada pela sintaxe . No outro exemplo, o recurso europeu faz a mesma confusão de níveis de análise. O exemplo apresentado constitui um adjetivo. A etiqueta NA eu não sei o que significa. Eu nunca trabalhei com esse dicionário de palavras compostas de São Carlos exatamente por conta desse problema: será sempre possível extrair automaticamente, sem revisão humana, das etiquetas compostas aquela etiqueta que indica a classe de palavras do composto? Mais uma tarefa para os bolsistas linguistas executarem!

arademaker commented 4 years ago

@leoalenc este issue pode estar relacionado ao #65. Veja que a informação extra poderia ajudar na verificação de regras para plurais?

arademaker commented 4 years ago

Embora não tenhamos incorporado o DELACF, considerando apenas adjs e substantivos, já temos 8739 formas com hífen.

% awk '$1 ~ /-/ {print}' nouns/* adjectives/* | wc -l
    8739

No arquivo DEFALCF, que depois de discompactado tive que trocar encoding de UTF-16 para UTF-8, tems penas 4K formas:

% recode utf-16..utf-8 ~/Downloads/DELACF_PB.dic
% wc -l ~/Downloads/DELACF_PB.dic
    4077 /Users/ar/Downloads/DELACF_PB.dic
arademaker commented 4 years ago

O que queremos fazer com estas formas compostas com hífen? Queremos mante-las separadas das palavras simples com faz o Unitex-PB?