OpenPecha / Botok

🏷 བོད་ཏོག [pʰøtɔk̚] Tibetan word tokenizer in Python
https://botok.readthedocs.io/
Apache License 2.0
58 stars 15 forks source link

Unexpected skip of syllable while tokenizing. #80

Open kaldan007 opened 3 years ago

kaldan007 commented 3 years ago

Input: "ཁ་སང་དང་ཁ་སང་གི་སྔ་ལོ།" output: 'ཁ་སང་ དང་ སང་ གི་ སྔ་ལོ ། ' if དང་ཁ་ is in remove word list expected output: ''ཁ་སང་ དང་ ཁ་སང་ གི་ སྔ་ལོ ། '