Closed hongjianyuan closed 3 years ago
你好,你们使用的的是bert的wordpiece分词,但是我们在重新复现的时候,发现只有中文单字,没有连接符,例如蔷字,你们tokenizer有蔷和##蔷,但是我们复现完只有蔷,想知道你们在使用wordpiece的具体细节,以及用了哪一个库或者包?我们用的是https://github.com/huggingface/tokenizers
你好,你们使用的的是bert的wordpiece分词,但是我们在重新复现的时候,发现只有中文单字,没有连接符,例如蔷字,你们tokenizer有蔷和##蔷,但是我们复现完只有蔷,想知道你们在使用wordpiece的具体细节,以及用了哪一个库或者包?我们用的是https://github.com/huggingface/tokenizers