HUSTAI / uie_pytorch

PaddleNLP UIE模型的PyTorch版实现
Apache License 2.0
586 stars 99 forks source link

微调模型时疑似报错:he OrderedVocab you are attempting to save contains a hole for index 12084, your vocabulary could be corrupted ! #25

Open zjcjason opened 1 year ago

zjcjason commented 1 year ago

我查询了部分资料,问题可能时出在uie_base_pytorch/vocab.txt中了。但是我无法解决这个问题,希望各位大佬帮忙指导!

LiShaoyu5 commented 1 year ago

这应该是ernie tokenizer的问题,我最近用ernie-3.0的时候也有一样的warning,检查了一下确实是tokenizer里缺了一个(tokenizer.json和vocab.txt里没有12084对应的token)。不过这个应该不影响结果。

fatty-tiger commented 10 months ago

检查一下原始词表是否有重复字符