LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

modeling productive word formation rules #15

Open leoalenc opened 6 years ago

leoalenc commented 6 years ago

@odanoburu @arademaker Um recurso lexical robusto deve levar em conta as palavras potenciais, capazes de serem geradas pelas regras produtivas de derivação e composição da língua. Uma maneira de se implementar isso é por meio da morfologia de estados finitos. Desse modo, implementei a derivação sufixal responsável pelos diminutivos produtivos do português. Comecei com os substantivos. Falta fazer isso com os adjetivos.

leoalenc commented 6 years ago

@odanoburu @arademaker @fcbr incluí novos arquivos com diminutivos gerados pela versão mais atualizada do componente morfológico de estados finitos. Os diminutivos gerados a partir de adjetivos foram incluídos. Os testes com o FreeLing precisariam ser rodados de novo.

arademaker commented 4 years ago

Eu gostaria de fechar este issue afinal ele é essencialmente a manutenção do Morpho-BR daqui para frente. Podemos criar issues específicos para cada expansão da lista que @leoalenc começou a produzir no primeiro comentário do issue.

Porém...

Precisamos manter o repo mais claro sobre o que é dado primário e o que é dado secundário. O diretório ‘diminutives’ é dado secundário, produzido a partir dos dados dos outros diretórios. E dos diminutivos parece que outras formas não são produzidas.

Mas depois de fecharmos o #59. Os dados do https://github.com/heliolbs/MorphoBrExpansion/ serão mesclados nos substantivos, adjetivos, advérbios e verbos do MorphoBr, e foram criados a partir destes mesmos dados do MorphoBr. E deles novos diminutivos e/ou outras formas podem ser geradas. Vamos ter que pensar como caracterizar melhor o que é essencial (dado primário) que precisa ficar no repositório. Acho que mesmo decidindo não apagar dados secundários (o que eu prefiro), é importante sabermos o que pode ser gerado com cada script/transducer.

Me parece que no Morpho-BR teremos uma espécie de um processo que deve ter um ponto-fixo. Sempre que editarmos alguns arquivos, alguns scripts/transducers precisarão ser reexecutados para eventualmente gerarem novas formas. Estes scripts/transducers precisarão ser rodados em alguma sequencia para garantir que saídas de uns possam ser usados por outros. O que não está claro é como detectar remoção de entradas. Afinal, uma coisa é dizer “para todos os adjetivos terminados em X produza entradas noun …” e pegamos estas novas entradas noun e juntarmos com as entradas noun que já temos tirando duplicatas. Mas se um adjetivo for removido, não será trivial detectamos que o nome correspondente precisa ser removido também. A não ser que tenhamos a disciplina de sempre ao apagar uma entrada, também verificarmos possíveis formas geradas a partir dela para apagarmos todas.

Enfim, eu gostaria de encerrar este issue após alguma discussão sobre esta questão de manutenções futuras do recurso.