在结果集中可以获取到每个字的坐标吗 - Githubissues

lewangdev / PaddleWebOCR

开源的中英文离线 OCR，使用 PaddleOCR 实现，提供了简单的 Web 页面及接口

Apache License 2.0

120 stars 30 forks source link

在结果集中可以获取到每个字的坐标吗 #14

Closed suchangqin1 closed 2 years ago

suchangqin1 commented 2 years ago

我想在原始图片中，在被提取的某个句子中的某个词汇进行重新画框

lewangdev commented 2 years ago

可以参考这个 Issue: https://github.com/PaddlePaddle/PaddleOCR/issues/5377

目前看起来大致有两种方案：

自己训练模型，只识别自己定义的字典里的词汇
沿用已有的模型，根据当前的识别结果，大致计算每个字符的位置

suchangqin1 commented 2 years ago

如何做一个“只识别自己定义的字典里的词汇”的一个训练模型，并使用呢

lewangdev commented 2 years ago

如何做一个“只识别自己定义的字典里的词汇”的一个训练模型，并使用呢

自己训练的可以参考这些文档：

也会涉及到配置文件的调整，可以参考这里：

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.4/doc/doc_ch/config.md

大概思路：把自己需要识别的文字整理到一个字典里面文件里面，根据这个字典文件，生成大量的图片（需不需要多种字体，字体大小一样吗，需要不需要变形等等），用生成的图片来训练模型，具体的步骤需要参考上面的文档。

另外还有一个思路，是调整 paddleocr 源码，在识别单个文字的时候把结果存下来，比如修改ocr_db_crnn.cc中的209～230行，通过argmax_idx和n的值得到大致的坐标