Closed suchangqin1 closed 2 years ago
可以参考这个 Issue: https://github.com/PaddlePaddle/PaddleOCR/issues/5377
目前看起来大致有两种方案:
如何做一个“只识别自己定义的字典里的词汇”的一个训练模型,并使用呢
如何做一个“只识别自己定义的字典里的词汇”的一个训练模型,并使用呢
自己训练的可以参考这些文档:
也会涉及到配置文件的调整,可以参考这里:
大概思路:把自己需要识别的文字整理到一个字典里面文件里面,根据这个字典文件,生成大量的图片(需不需要多种字体,字体大小一样吗,需要不需要变形等等),用生成的图片来训练模型,具体的步骤需要参考上面的文档。
另外还有一个思路,是调整 paddleocr 源码,在识别单个文字的时候把结果存下来,比如修改ocr_db_crnn.cc中的209~230行,通过argmax_idx和n的值得到大致的坐标
我想在原始图片中,在被提取的某个句子中的某个词汇进行重新画框