undertheseanlp / underthesea

Underthesea - Vietnamese NLP Toolkit
http://undertheseanlp.com
GNU General Public License v3.0
1.38k stars 273 forks source link

Vấn đề về định dạng font chữ #382

Closed luantran1311 closed 3 years ago

luantran1311 commented 3 years ago

Chào bạn, mình đang sử dụng underthesea cho bài toán NER.

Kết quả trả về khá chính xác, tuy nhiên định dạng font chữ không trùng khớp với nhau, hãy xem ví dụ ở dưới đây

question = 'Đảo Phú Quốc có gì?'
named_entities = ner(question)
print(named_entities)

Output sẽ là:

[('Đảo', 'N', 'B-NP', 'B-LOC'), ('Phú Quốc', 'Np', 'I-NP', 'I-LOC'), ('có', 'V', 'B-VP', 'O'), ('gì', 'P', 'B-NP', 'O'), ('?', 'CH', 'O', 'O')]

Mình lấy text "Phú Quốc" từ biến question ở trên, và text "Phú Quốc" từ output của Under The Sea thì thấy 2 text này hoàn toàn khác nhau khi so sánh string bằng Python Khi mình so sánh 2 text Phú Quốc thì lại không trùng khớp (có lẽ chắc không đúng định dạng): https://prnt.sc/wczffp

rain1024 commented 3 years ago

Sự khác nhau này là do encode @luan123z nhé

https://github.com/undertheseanlp/underthesea/blob/c1f5b038b9a461d526abf9d4a56da1bbd5174807/underthesea/feature_engineering/text.py#L4-L13

Về chuẩn hóa unicode, bạn có thể tham khảo thêm ở đây https://unicode.org/faq/normalization.html