error tokenize - Githubissues

sau khi kiểm tra code của file alignment_utils.py, em nhận ra bpe_tokens và other_tokens khác nhau đối với từ "gì vậy" dòng thứ nhất là bpe_tokens dòng thứ 2 là other_tokens dòng thứ 3 là ''.join(bpe_tokens) dòng thứ 4 là ''.join(other_tokens) từ "gì vậy" được tokenize thành 2 token "g" và " unk ", dẫn đến việc không thể lỗi "cannot align"

các từ khác, ví dụ như "gì thế", hay "gì cơ" không xảy ra lỗi trên em mong được mọi người giúp đỡ giải quyết lỗi này

VinAIResearch / PhoBERT

error tokenize #2