undertheseanlp / ner

Vietnamese Named Entity Recognition
50 stars 17 forks source link

Trainning để có thể nhận diện số điện thoại Việt Nam #6

Open ducpt2 opened 4 years ago

ducpt2 commented 4 years ago

Hi anh, em có test thử project tại link http://undertheseanlp.com/ thì hiện tại em thấy NER chưa nhận diện được số điện thoại Việt Nam. Anh có thể hướng dẫn em trainning thêm để có thể nhận diện phone ko ạ? Hiện tại em có đoạn regex phone của Việt Nam. Cảm ơn anh đã tạo 1 project tuyệt vời.

rain1024 commented 4 years ago

@ducpt2 Em có thể đưa ra một vài ví dụ về các trường hợp không nhận diện được số điện thoại Việt Nam không? Anh nghĩ cái này có thể xử lý bằng cách dùng luật ở bước tokenize bằng regex như em bảo

ducpt2 commented 4 years ago

vâng, em ví dụ nhé ạ. Chuyển hàng cho mình tại ngõ 68 triều khúc thanh xuân hà nội.

rain1024 commented 4 years ago

Hi anh, em có test thử project tại link http://undertheseanlp.com/ thì hiện tại em thấy NER chưa nhận diện được số điện thoại Việt Nam.

Chuyển hàng cho mình tại ngõ 68 triều khúc thanh xuân hà nội.

Em muốn làm gì với đoạn text này? Đoạn text này có số điện thoại Việt Nam đâu nhỉ?

ducpt2 commented 4 years ago

Sorry anh em rep hơi nhanh nên có chút nhầm lẫn ạ. Em sửa lại đoạn text 1 chút.

rain1024 commented 4 years ago

Hiện tại, về việc tokenize, thì anh đang cũng có phần nhận các số rồi.

Selection_050

Anh cũng chưa nghĩ ra cách nào để tích hợp regex cho riêng số phone vào, mà ko bị conflict với phần nhận số này

Em có đề xuất gì không?

PS: Về regex tokenize của underthesea, em có thể tham khảo ở đây

https://github.com/undertheseanlp/underthesea/blob/master/underthesea/word_tokenize/regex_tokenize.py#L8

ducpt2 commented 4 years ago

Em cảm ơn anh nhiều ạ, Hiện tại thì chắc em chưa đủ kiến thức để contribute được phần này, thành thật sorry anh.

ooker777 commented 5 months ago

tại sao mình ko dùng regex cho nhanh nhỉ?