Open leoalenc opened 2 years ago
https://github.com/CompLin/nheengatu/commit/aae0cea09178b0c83c02415279b230d93ace3eef aparentemente resolve esta issue, como se pode constatar no arquivo de teste tok-test.txt, gerado pelos comandos:
>>> f=open("tok-test.txt",'w')
>>> for t in teste:
print("IN: ",t,file=f)
print("OUT: "," ".join(Nheengatagger.tokenize(t,mwe_sep="_")),file=f)
print(file=f)
>>> f.close()
@dominickmaia, quer checar esse arquivo para fecharmos a issue?
O novo algoritmo
Nheengatagger
não toqueniza corretamente multitoken words como iepé iepé (ver #3):