使用自定义vocab.txt

chineseocr / trocr-chinese

transformers ocr for chinese

362 stars 56 forks source link

使用自定义vocab.txt #32

Open JokerCD opened 1 year ago

JokerCD commented 1 year ago

作者好，感谢你的分享！在按你的步骤进行操作时出现了一个问题：当使用我自定义的vocab.txt时，在执行了init_custdata_model.py文件后发现生成的配置文件中tokenizer.json文件还是原来的字库，并没有更新至我自定义的字库，导致调用processor.tokenizer.get_vocab()时得到的是原字库，而这影响到了训练和测试时的encode和decode。期待你的回答，再次感谢！

wenlihaoyu commented 1 year ago

先执行 python gen_vocab.py获取字典

JokerCD commented 1 year ago

先执行 python gen_vocab.py获取字典

您好，我这边是先执行了gen_vocab.py基于我自定义的字库获取了字典