lewangdev / PaddleWebOCR

开源的中英文离线 OCR,使用 PaddleOCR 实现,提供了简单的 Web 页面及接口
Apache License 2.0
120 stars 30 forks source link

在结果集中可以获取到每个字的坐标吗 #14

Closed suchangqin1 closed 2 years ago

suchangqin1 commented 2 years ago

我想在原始图片中,在被提取的某个句子中的某个词汇进行重新画框

lewangdev commented 2 years ago

可以参考这个 Issue: https://github.com/PaddlePaddle/PaddleOCR/issues/5377

目前看起来大致有两种方案:

  1. 自己训练模型,只识别自己定义的字典里的词汇
  2. 沿用已有的模型,根据当前的识别结果,大致计算每个字符的位置
suchangqin1 commented 2 years ago

如何做一个“只识别自己定义的字典里的词汇”的一个训练模型,并使用呢

lewangdev commented 2 years ago

如何做一个“只识别自己定义的字典里的词汇”的一个训练模型,并使用呢

自己训练的可以参考这些文档:

也会涉及到配置文件的调整,可以参考这里:

大概思路:把自己需要识别的文字整理到一个字典里面文件里面,根据这个字典文件,生成大量的图片(需不需要多种字体,字体大小一样吗,需要不需要变形等等),用生成的图片来训练模型,具体的步骤需要参考上面的文档。

另外还有一个思路,是调整 paddleocr 源码,在识别单个文字的时候把结果存下来,比如修改ocr_db_crnn.cc中的209~230行,通过argmax_idx和n的值得到大致的坐标