LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

como lidar com símbolos e abreviaturas? #71

Open leoalenc opened 4 years ago

leoalenc commented 4 years ago

Nos recursos que utilizamos, existem vários casos de abreviaturas e símbolos tratados como substantivos. As formas geram diminutivos improváveis. Desse modo, seria interessante considerar uma anotação especial, no futuro, para essas formas, até porque não parecem ocorrer com a mesma distribuição de substantivos em português. No exemplo abaixo, “ha” não deve ser pronunciado como [ha] ou [a], mas como [aga’a] ou “hectare”.

?O ha é uma unidade de medida.

Uma primeira abordagem para detecção dessas formas é o comando seguinte: ~/MorphoBr$ grep -Ei "^[bcdfghjklmnpqrstvwxyz][aeiou][[:space:]]" nouns/*.dict

nouns/a-c.delaf.dict:bi bi+N+M+SG ... nouns/j-p.delaf.dict:ki ki+N+M+SG nouns/j-p.delaf.dict:li li+N+M+SG nouns/j-p.delaf.dict:mi mi+N+M+SG nouns/j-p.delaf.dict:mu mu+N+M+SG ... nouns/nouns.gfl.dict:Ba ba+N+M+SG nouns/nouns.gfl.dict:Ca ca+N+M+SG nouns/nouns.gfl.dict:go go+N+M+SG nouns/nouns.gfl.dict:ha ha+N+M+PL nouns/nouns.gfl.dict:ha ha+N+M+SG nouns/nouns.gfl.dict:ji ji+N+M+SG ... nouns/nouns.gfl.dict:re re+N+M+SG nouns/nouns.gfl.dict:ti ti+N+M+SG nouns/q-z.delaf.dict:si si+N+M+SG nouns/q-z.delaf.dict:vu vu+N+M+SG

Eu chequei todas essas formas em dois dos dicionários de referência e cheguei à seguinte lista de itens que não parecem funcionar como substantivos em português, pelo menos do ponto de vista da derivação morfológica:

ha (símbolo de hectare)

Ba e Ca (Símbolos de elementos químicos)

Essas formas geram os seguintes diminutivos, que não parecem aceitáveis, seguindo o modelo geral de casinha e casazinha a partir de casa:

hazinho hinho bazinho binho cazinho cinho

Seja como for, na próxima versão do gerador de diminutivos, vou excluir essas três abreviaturas ao importar as formas base.