vncorenlp / VnCoreNLP

A Vietnamese natural language processing toolkit (NAACL 2018)
Other
587 stars 145 forks source link

Over segmentaion (conflation) #30

Closed andmek closed 4 years ago

andmek commented 4 years ago

When segmenting (conflating) foreign names, there is over segmentaion (conflation). For instance, "Benjamin Franklin" in "Khi tôi nói đến từ đó, chắc chắn trong đầu bạn sẽ không liên tưởng đến Benjamin Franklin, nhưng tôi sẽ giải thích cho bạn tại sao lại thế." is segmented as: "Khi tôi nói đến từ đó , chắc_chắn trong đầu bạn sẽ không liên_tưởng đến Benjamin_Franklin , nhưng tôi sẽ giải_thích cho bạn tại_sao lại thế ."

Is there a way to fix this problem?

tienthanhdhcn commented 4 years ago

The output looks perfect to me as the intent of word segmentation is different from tokenization. Benjamin_Franklin is a word (not syllable) indicating a person's name as a whole.