phuonglh / vlp

Vietnamese Language Processing Toolkit
GNU General Public License v3.0
40 stars 5 forks source link

[Tok] Tokenizer không chính xác cho "name" #1

Open trietnm2 opened 3 years ago

trietnm2 commented 3 years ago

Trong file vlp.tok.Tokenizer dòng 32:

Brick("name", raw"""\b(\p{Lu}\p{Ll})([\s+_&-]?(\p{Lu}\p{Ll}))+\b""".r, 2),

Regex không cover nhiều trường hợp còn thiếu như:

Đề xuất:

Brick("name", raw"""\b(\p{Ll}?\p{Lu}\p{Ll})([\s+_&-.]?((\p{Lu}\p{Ll})|((\p{Lu}\p{Ll})?\d+(\p{Lu}\p{Ll})?)))+\b""".r, 2),

phuonglh commented 3 years ago

Hi trietnm2. Các rules này hoàn toàn có thể được update để xử lý các trường hợp mong muốn như bạn viết. Tuỳ ứng dụng mà "iPhone 12 Pro Max" có thể được ghép hay tách.

Tinh thần của open-source là như vậy, chỉnh sửa thoải mái theo ý mình thích, phù hợp với công việc và nhu cầu của mỗi người.