PaddlePaddle / PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
https://paddlepaddle.github.io/PaddleOCR/
Apache License 2.0
44.1k stars 7.81k forks source link

新增生僻字模型 #10390

Closed shiyutang closed 5 months ago

shiyutang commented 1 year ago

背景

经过需求征集https://github.com/PaddlePaddle/PaddleOCR/issues/10334 和每周技术研讨会 https://github.com/PaddlePaddle/PaddleOCR/issues/10223 讨论,我们确定了新增生僻字模型的任务。

解决步骤

  1. 替换现有字典txt为扩充《通用规范汉字表》的字典。
  2. 在现有数据集上通过数据合成copy paste等方式实现语料的平衡,并重新训练PPOCRV3的检测和识别模型。
  3. 对比训练后模型在普通文字和生僻字上的检测、识别精度,并和PPOCRV3模型最优模型进行对比;达到普通字精度不变或者更高,生僻字上精度进一步提升的效果。
  4. 提交PR到ppocr,替换最优模型。
hademen commented 1 year ago

生僻字模型的模型在哪里可以下载

shiyutang commented 1 year ago

这是一个命题任务,可以报名参与,使用aistudio资源进行训练。训练之后就在相关PR中公布。

zhoutianrui-tongji commented 11 months ago

请问现在有生僻字模型了吗?

zhuxiaobin commented 8 months ago

@shiyutang 生僻字模型进度咋样了?

dc6273632 commented 5 months ago

生僻字模型有消息了吗?