chineseocr / trocr-chinese

transformers ocr for chinese
362 stars 56 forks source link

使用自定义vocab.txt #32

Open JokerCD opened 1 year ago

JokerCD commented 1 year ago

作者好,感谢你的分享! 在按你的步骤进行操作时出现了一个问题:当使用我自定义的vocab.txt时,在执行了init_custdata_model.py文件后发现生成的配置文件中tokenizer.json文件还是原来的字库,并没有更新至我自定义的字库,导致调用processor.tokenizer.get_vocab()时得到的是原字库,而这影响到了训练和测试时的encode和decode。 期待你的回答,再次感谢!

wenlihaoyu commented 1 year ago

先执行 python gen_vocab.py获取字典

JokerCD commented 1 year ago

先执行 python gen_vocab.py获取字典

您好, 我这边是先执行了gen_vocab.py基于我自定义的字库获取了字典