When segmenting (conflating) foreign names, there is over segmentaion (conflation).
For instance, "Benjamin Franklin" in
"Khi tôi nói đến từ đó, chắc chắn trong đầu bạn sẽ không liên tưởng đến Benjamin Franklin, nhưng tôi sẽ giải thích cho bạn tại sao lại thế."
is segmented as:
"Khi tôi nói đến từ đó , chắc_chắn trong đầu bạn sẽ không liên_tưởng đến Benjamin_Franklin , nhưng tôi sẽ giải_thích cho bạn tại_sao lại thế ."
The output looks perfect to me as the intent of word segmentation is different from tokenization. Benjamin_Franklin is a word (not syllable) indicating a person's name as a whole.
When segmenting (conflating) foreign names, there is over segmentaion (conflation). For instance, "Benjamin Franklin" in "Khi tôi nói đến từ đó, chắc chắn trong đầu bạn sẽ không liên tưởng đến Benjamin Franklin, nhưng tôi sẽ giải thích cho bạn tại sao lại thế." is segmented as: "Khi tôi nói đến từ đó , chắc_chắn trong đầu bạn sẽ không liên_tưởng đến Benjamin_Franklin , nhưng tôi sẽ giải_thích cho bạn tại_sao lại thế ."
Is there a way to fix this problem?