Open trietnm2 opened 3 years ago
Hi trietnm2. Các rules này hoàn toàn có thể được update để xử lý các trường hợp mong muốn như bạn viết. Tuỳ ứng dụng mà "iPhone 12 Pro Max" có thể được ghép hay tách.
Tinh thần của open-source là như vậy, chỉnh sửa thoải mái theo ý mình thích, phù hợp với công việc và nhu cầu của mỗi người.
Trong file vlp.tok.Tokenizer dòng 32:
Brick("name", raw"""\b(\p{Lu}\p{Ll})([\s+_&-]?(\p{Lu}\p{Ll}))+\b""".r, 2),
Regex không cover nhiều trường hợp còn thiếu như:
Đề xuất:
Brick("name", raw"""\b(\p{Ll}?\p{Lu}\p{Ll})([\s+_&-.]?((\p{Lu}\p{Ll})|((\p{Lu}\p{Ll})?\d+(\p{Lu}\p{Ll})?)))+\b""".r, 2),