Open whisky-12 opened 1 year ago
这个没什么办法,只能是OCR那里检测和识别要下功夫标注训练调整
OCR
您好 ,那请问单ocr识别精度有办法提升嘛?目前识别区域效果可以, 但提取出的数字存在错误识别的情况 ,ocr识别效果不如paddlehub中的mobile模型
您好,如果您认为目前的OCR效果没有PADDLEHUB上的模型效果好,可以分开,就是使用检测模型检测,将检测到的区域传递给你想要使用的PADDLEHUB模型让其识别,从而达到一个较好的效果
您好,如果您认为目前的OCR效果没有PADDLEHUB上的模型效果好,可以分开,就是使用检测模型检测,将检测到的区域传递给你想要使用的PADDLEHUB模型让其识别,从而达到一个较好的效果
好的感谢 , 辛苦了 ,其实我现在对nlp基础架构也不是太了解, 目前处于变学变用的状态, 再次感谢您的指点, 辛苦了!!!!
您好 ,我刚看了下,加载 TaskFlow时 会自动下载加载paddleocr中ch_ppocr_mobile_v2.0的三个静态图模型 /.paddleocr/whl/ ,具体信息如下,下载我希望尝试通过修改代码中这段配置,来替换模型 为ch_ppocr_server_v2.0 ,但没有找到相关的代码。不知您对此是否有了解 ,辛苦了!!!
OCR识别部分可以自定义输入的,可用PaddleOCR,也可以用其他OCR服务 参考文档:UIE Taskflow使用指南 使用PaddleOCR的示例:
from paddleocr import PaddleOCR
from paddlenlp import Taskflow
# ocr_version对应模型设置
ocr = PaddleOCR(use_angle_cls=True, lang="ch", ocr_version="PP-OCRv3")
# ocr识别
ocr_result = ocr.ocr(you_img_path, rec=True)
# ocr结果组成layout参数
ocr_layout = []
for res in ocr_result:
for item in res:
x1, y1 = item[0][0]
x2, y2 = item[0][2]
text = item[1][0]
ocr_layout.append(([x1, y1, x2, y2], text))
ie_task = Taskflow("information_extraction", schema=you_schema, model="uie-x-base", layout_analysis=True)
# uie模型预测
ie_result = ie_task({"doc": you_img_path, "layout": ocr_layout})
print(ie_result)
直接传付费的ocr,合合和百度,阿里的ocr api这样识别特别准
我的就是使用付费的ocr解决的
请提出你的问题
请问 ,在使用UIE-X 模型微调时,进行实体抽取的时候,如何提升OCR的识别(中文)准确率,目前提取关系正常,但OCR识别结果存在错别字和未识别到的部分