LR-POR / MorphoBr

Resources for morphological analysis of Portuguese
Apache License 2.0
24 stars 4 forks source link

lemmatization of feminine nouns with morphologically related masculine nouns #129

Open leoalenc opened 1 year ago

leoalenc commented 1 year ago

@arademaker, a exemplo de https://github.com/UniversalDependencies/UD_Portuguese-Bosque/issues/410#issue-1344933113, essa é outra questão suscitada pela comparação sistemática entre MorphoBr e Bosque, levada a cabo no primeiro semestre do ano passado. Relaciona-se com #79. Substantivos femininos com uma forma de masculino correspondente, representando variação de sexo, são lematizados com a forma do masculino:

awk '$1 ~ /ras?$/ && $2 ~ /r\+/' *.dict | tail
zingadora   zingador+N+F+SG
zingadoras  zingador+N+F+PL
zombadora   zombador+N+F+SG
zombadoras  zombador+N+F+PL
zupadora    zupador+N+F+SG
zupadoras   zupador+N+F+PL
zurradora   zurrador+N+F+SG
zurradoras  zurrador+N+F+PL
zurzidora   zurzidor+N+F+SG
zurzidoras  zurzidor+N+F+PL

Neste exemplo, temos também cabrita cabrita+N+SG:

~/MorphoBr/nouns$ awk '$1 ~ /cabrit[oa]s?$/' *.dict
cabritas    cabra+N+DIM+F+PL
cabrita cabrita+N+SG
cabritas    cabrita+N+PL
cabrita cabrito+N+F+SG
cabritas    cabrito+N+F+PL
cabrito cabrito+N+M+SG
cabritos    cabrito+N+M+PL

A forma cabrita possui sentidos que não se reduzem à noção de fêmea do animal designado por cabrito, por exemplo:

  1. Carp. Cabo (parte própria para empunhar) de serra manual

Ver:

https://aulete.com.br/cabrita https://aulete.com.br/cabrito

A questão é se devemos sistematicamente modificar a lematização de substantivos como alunas, professora etc., seguindo o modelo do exemplo seguinte:

~/MorphoBr/nouns$ grep pastoras *.dict
nouns-p.dict:pastoras   pastora+N+F+PL

Ver:

https://aulete.com.br/pastora https://aulete.com.br/pastor

Compare-se com:

awk '$1 ~ /professoras?$/ && $2 ~ /r\+/' *.dict
professora  professor+N+F+SG
professoras professor+N+F+PL
turbo-professora    turbo-professor+N+F+SG
turbo-professoras   turbo-professor+N+F+PL
awk '$1 ~ /alunas?$/ && $2 ~ /o\+/' *.dict
aluna   aluno+N+F+SG
alunas  aluno+N+F+PL
professora-aluna    professor-aluno+N+F+SG
professoras-alunas  professor-aluno+N+F+PL
awk '$1 ~ /meninas?$/ && $2 ~ /o\+/' *.dict
menina  menino+N+F+SG
meninas menino+N+F+PL