CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)
7 stars 1 forks source link

impedir geração de duplicatas no léxico #34

Closed leoalenc closed 2 years ago

leoalenc commented 2 years ago

No momento, temos:

awk '$2 ~ /^ara\+/' lexicon.txt

ara ara+N+SG ara-itá ara+N+PL ara ara+N+SG ara-itá ara+N+PL ara ara+N+SG ara-itá ara+N+PL

O objetivo é consertar o código que constrói o léxico para impedir a geração de duplicatas.

leoalenc commented 2 years ago

No glossário, temos:

ara 1 (s.) - dia ara 2 (s.) - mundo ara 3 (s.) - tempo arama 1 (part.) - expressa finalidade arama 2 (posp.) - para (1ª e 2ª pess.)

leoalenc commented 2 years ago

Neste commit, incluí a função extractHomonyms, que constrói dicionário que associa a cada lema uma lista com as suas variantes. Cada uma dessas variantes constitui um dicionário com chaves para a classe de palavra, acepção etc. As variantes diferem entre si pela classe de palavra e/ou acepção.

leoalenc commented 2 years ago

Com https://github.com/CompLin/nheengatu/commit/2527139fc37d6f6eeb83f8bd3cfa236c6baeb88a, troquei list por set em diversas operações, evitando as duplicatas. Mas vejo que faltou ordenar alfabeticamente o léxico.