bad segmentation - Githubissues

OpenPecha / Botok

🏷 བོད་ཏོག [pʰøtɔk̚] Tibetan word tokenizer in Python

Apache License 2.0

58 stars 15 forks source link

string = """བཀྲ་ཤིས་བདེ་ལེགས་ཕུན་སུམ་ཚོགས། རྟག་ཏུ་བདེ་བ་ཐོབ་པར་ཤོག
བཀྲ་ཤིས་བདེ་ལེགས་ཕུན་སུམ་ཚོགས། རྟག་ཏུ་བདེ་བ་ཐོབ་པར་ཤོག"""
t = Text(string)
print(t.tokenize_words_raw_lines)

gives as output:

བཀྲ་ཤིས་ བདེ་ལེགས་ ཕུན་སུམ་ ཚོགས །_ རྟག་ ཏུ་ བདེ་བ་ ཐོབ་པ ར་ ཤོག
བཀྲ་ ཤིས་ བདེ་ལེགས་ ཕུན་སུམ་ ཚོགས །_ རྟག་ ཏུ་ བདེ་བ་ ཐོབ་པ ར་ ཤོག

where བཀྲ་ ཤིས་ ought to be tokenized བཀྲ་ཤིས་ on the second line.

OpenPecha / Botok

bad segmentation #68