hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.13k stars 2.72k forks source link

请问自带的PaddleOCR-json如何添加缅甸语模型? #609

Closed 236560739 closed 3 months ago

236560739 commented 3 months ago

由于工作需要,经常会中缅文档需要提取文字,但我在PaddleOCR-json模型中没有找到下载和添加缅甸Myanmar语模型的地方,目前我用的是TesseractOCR插件,然后是单独添加mya.traineddata模型,进行识别,我也分不清哪个模型好用。

hiroi-sora commented 3 months ago

你好。 PaddleOCR 项目的模型丰富度是不如 TesseractOCR 的,常用的语言模型已经默认塞进Umi-OCR里面了。缅甸语这类小语种, PaddleOCR 官方一般是不会提供的,只能自己训练。

PaddleOCR 官方提供的语言库请见: https://github.com/PaddlePaddle/PaddleOCR/blob/main/doc/doc_ch/models_list.md