Word tokenizing issue with vietnamese human names.

Em để ý tên người (lowercased) mà chứa các từ thành phần có nghĩa thì không thể tokenize đúng cả tên được. Ví dụ như sau:

text = 'Á hậu trương mỹ nhân lấn sân điện ảnh'
uts.word_tokenize(text, format='text')
>>> 'á_hậu trương mỹ_nhân lấn_sân điện_ảnh'
# expected 'á_hậu trương_mỹ_nhân lấn_sân điện_ảnh'

text = 'đông nhi - ông cao_thắng chia_sẻ bí_quyết hôn_nhân'
uts.word_tokenize(text, format='text')
>>> 'đông nhi - ông cao_thắng chia_sẻ bí_quyết hôn_nhân'
# expected 'đông nhi - ông_cao_thắng chia_sẻ bí_quyết hôn_nhân'

text = 'huyền thoại lý tiểu long'
uts.word_tokenize(text, format='text')
>>>'huyền_thoại lý tiểu long'
# expected huyền_thoại lý_tiểu_long

text = 'ca sĩ đàm vĩnh hưng'
uts.word_tokenize(text, format='text')
>>> 'ca_sĩ đàm vĩnh_hưng'
# expected 'ca_sĩ đàm_vĩnh_hưng'

Tokenizer của pyvi và vncorenlp cũng gặp khó khăn với lowercased name như trên.

Workarounds em đã thử:

Tự thêm fixed_words. Nhưng với large data thì không thực sự dễ thực hiện.

Capitalize tên người trước khi tokenize (Ví dụ sử dụng true-casing model). Tuy nhiên kết quả khi tokenize lại không thực sự consistent:


text = 'Á hậu Trương Mỹ Nhân lấn sân điện ảnh'
uts.word_tokenize(text, format='text')
>>> 'Á_hậu Trương Mỹ_Nhân lấn_sân điện_ảnh'

text = 'Á hậu Trương Mỹ nhân lấn sân điện ảnh' uts.word_tokenize(text, format='text')

'Á_hậu Trương_Mỹ_nhân lấn_sân điện_ảnh'

text = 'huyền thoại Lý Tiểu Long' uts.word_tokenize(text, format='text')

'huyền_thoại Lý_Tiểu_Long'

text = 'ca sĩ Đàm Vĩnh Hưng' uts.word_tokenize(text, format='text')

'ca_sĩ Đàm_Vĩnh_Hưng'

undertheseanlp / underthesea

Word tokenizing issue with vietnamese human names. #679