Open odanoburu opened 6 years ago
@odanoburu Sim, com certeza, isso é muito importante! No caso de abaixa-luz , o dicionário de São Carlos faz uma confusão: A etiqueta de classe de palavras deve ser substantivo, como no recurso europeu. É isso que interessa para o processamento sintático posterior. A informação de que se trata de um palavra composta de um substantivo e um verbo não é relevante para a sintaxe. De fato, no modelo da gramática léxico-funcional, as palavras são consideradas átomos na sintaxe, esse componente não tem acesso à estrutura interna das palavras compostas ou derivadas. A respeito desse tipo de exemplo , creio que há consenso entre os diferentes modelos teóricos linguísticos. No entanto, pensando em outros tipos de aplicações, eu acharia interessante preservar a informação que o dicionário de São Carlos traz a respeito da natureza da composição. Teremos que pensar então numa etiqueta que possa ser desprezada pela sintaxe . No outro exemplo, o recurso europeu faz a mesma confusão de níveis de análise. O exemplo apresentado constitui um adjetivo. A etiqueta NA eu não sei o que significa. Eu nunca trabalhei com esse dicionário de palavras compostas de São Carlos exatamente por conta desse problema: será sempre possível extrair automaticamente, sem revisão humana, das etiquetas compostas aquela etiqueta que indica a classe de palavras do composto? Mais uma tarefa para os bolsistas linguistas executarem!
@leoalenc este issue pode estar relacionado ao #65. Veja que a informação extra poderia ajudar na verificação de regras para plurais?
Embora não tenhamos incorporado o DELACF, considerando apenas adjs e substantivos, já temos 8739 formas com hífen.
% awk '$1 ~ /-/ {print}' nouns/* adjectives/* | wc -l
8739
No arquivo DEFALCF, que depois de discompactado tive que trocar encoding de UTF-16 para UTF-8, tems penas 4K formas:
% recode utf-16..utf-8 ~/Downloads/DELACF_PB.dic
% wc -l ~/Downloads/DELACF_PB.dic
4077 /Users/ar/Downloads/DELACF_PB.dic
O que queremos fazer com estas formas compostas com hífen? Queremos mante-las separadas das palavras simples com faz o Unitex-PB?
no DELACF (ainda não incorporado ao MorphoBr) me parece que há análises (ou pelo menos tags) diferentes:
enquanto no GFL (já no formato morphoBR):
talvez fosse interessante incorporar o DELACF, harmonizando as tags.