toquenização falha de "multitoken words"

CompLin / nheengatu

Tools and resources for the computational processing of Nheengatu (Modern Tupi)

7 stars 1 forks source link

toquenização falha de "multitoken words" #10

Open leoalenc opened 2 years ago

leoalenc commented 2 years ago

O novo algoritmo Nheengatagger não toqueniza corretamente multitoken words como iepé iepé (ver #3):

>>> Nheengatagger.tokenize("Aikué iepé iepé ukuau uaá upinaitika.")
['Aikué', 'iepé iepé', 'iepé', 'ukuau', 'uaá', 'upinaitika', '.']

leoalenc commented 2 years ago

https://github.com/CompLin/nheengatu/commit/aae0cea09178b0c83c02415279b230d93ace3eef aparentemente resolve esta issue, como se pode constatar no arquivo de teste tok-test.txt, gerado pelos comandos:


>>> f=open("tok-test.txt",'w')
>>> for t in teste:
    print("IN: ",t,file=f)
    print("OUT: "," ".join(Nheengatagger.tokenize(t,mwe_sep="_")),file=f)
    print(file=f)

>>> f.close()

@dominickmaia, quer checar esse arquivo para fecharmos a issue?