undertheseanlp / underthesea

Underthesea - Vietnamese NLP Toolkit
http://undertheseanlp.com
GNU General Public License v3.0
1.37k stars 271 forks source link

unexpected result from tokenizer #397

Open lf2foce opened 3 years ago

lf2foce commented 3 years ago

word_tokenize(sentence) ['Chàng', 'trai', '9X', 'Quảng Trị', 'khởi nghiệp', 'từ', 'nấm', 'sò']

Bản mới này hình như đang thiếu dữ liệu nên chưa tách chuẩn phải không các bạn

rain1024 commented 3 years ago

@lf2foce Bạn cài bản bao nhiêu vậy?

lf2foce commented 3 years ago

Bản 1.3.1 đó bạn ơi, mình muốn tìm thêm nhiều nội dung về các món ăn thì tải thêm data bổ sung ở đâu nhỉ

update: 1.3.2a1 kết quả tương tự nhé

rain1024 commented 3 years ago

Bản 1.3.1 đó bạn ơi update: 1.3.2a1 kết quả tương tự nhé

Ok, để mình kiểm tra lại

Mình muốn tìm thêm nhiều nội dung về các món ăn thì tải thêm data bổ sung ở đâu nhỉ

Mình chưa hiểu ý này lắm?

minhdanh commented 3 years ago

Mình cũng đang gặp tình trạng tương tự như bạn lf2foce.

Môi trường của mình:

Python 3.6.13 (virtualenv) underthesea 1.3.2a1

dangbuiii commented 3 years ago

Mình cũng thử với các bản cũ hơn vẫn bị