Mình chạy thử ví dụ có sẵn trong UnitTestVietnameseTextNormalizer.py và có đọc và hiểu tiêu chí sửa của bạn là chỉ sửa khi chắc chắn
VietnameseTextNormalizer.Normalize(" UTF8 : Tôi làm việ ở ban công ngệ FPT, tôi là người viêt nam. hôm nay tôi ko thích ăn mì tôm. tôi làm đc 2 bài tập.");
// UTF8 : Tôi làm việc ở ban công nghệ FPT, tôi là người viêt nam. hôm nay tôi không thích ăn mì tôm. tôi làm đc 2 bài tập.
Mình có vài nhận xét nhanh và viết ra để các bạn khác có nhu cầu sử dụng thư viện không phải đánh giá lại
Kết quả chữ 'viet nam' 'hcm' không được thêm dấu, không viết hoa
Các chữ viết tắt thường thấy như kođc sẽ không được thư viện thay thế tự động
Sau dấu chấm câu, văn bản sẽ không được sửa viết hoa chữ đầu
Các lỗi gõ như hôm__nay (nhiều hơn 1 khoảng trắng), Trời có mưa không__? Trời nắng. (thừa khoảng trắng trước dấu câu) sẽ không được sửa
Một vài lỗi chính tả mình nghĩ để thử thử viện bảng chấttimf kiếmhọc bỏngtình tiếc không được sửa
Mình chạy thử ví dụ có sẵn trong
UnitTestVietnameseTextNormalizer.py
và có đọc và hiểu tiêu chí sửa của bạn là chỉ sửa khi chắc chắnMình có vài nhận xét nhanh và viết ra để các bạn khác có nhu cầu sử dụng thư viện không phải đánh giá lại
ko
đc
sẽ không được thư viện thay thế tự độnghôm__nay
(nhiều hơn 1 khoảng trắng),Trời có mưa không__? Trời nắng.
(thừa khoảng trắng trước dấu câu) sẽ không được sửabảng chất
timf kiếm
học bỏng
tình tiếc
không được sửa