PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
12.17k stars 2.95k forks source link

[Question]: 在使用UIE-X 进行实体抽取的时候,如何提升OCR的识别(中文)准确率 #6281

Open whisky-12 opened 1 year ago

whisky-12 commented 1 year ago

请提出你的问题

请问 ,在使用UIE-X 模型微调时,进行实体抽取的时候,如何提升OCR的识别(中文)准确率,目前提取关系正常,但OCR识别结果存在错别字和未识别到的部分

yutong12 commented 1 year ago

这个没什么办法,只能是OCR那里检测和识别要下功夫标注训练调整

whisky-12 commented 1 year ago

OCR

您好 ,那请问单ocr识别精度有办法提升嘛?目前识别区域效果可以, 但提取出的数字存在错误识别的情况 ,ocr识别效果不如paddlehub中的mobile模型

yutong12 commented 1 year ago

您好,如果您认为目前的OCR效果没有PADDLEHUB上的模型效果好,可以分开,就是使用检测模型检测,将检测到的区域传递给你想要使用的PADDLEHUB模型让其识别,从而达到一个较好的效果

whisky-12 commented 1 year ago

您好,如果您认为目前的OCR效果没有PADDLEHUB上的模型效果好,可以分开,就是使用检测模型检测,将检测到的区域传递给你想要使用的PADDLEHUB模型让其识别,从而达到一个较好的效果

好的感谢 , 辛苦了 ,其实我现在对nlp基础架构也不是太了解, 目前处于变学变用的状态, 再次感谢您的指点, 辛苦了!!!!

whisky-12 commented 1 year ago

您好 ,我刚看了下,加载 TaskFlow时 会自动下载加载paddleocr中ch_ppocr_mobile_v2.0的三个静态图模型 /.paddleocr/whl/ ,具体信息如下,下载我希望尝试通过修改代码中这段配置,来替换模型 为ch_ppocr_server_v2.0 ,但没有找到相关的代码。不知您对此是否有了解 ,辛苦了!!! image

huanghao128 commented 1 year ago

OCR识别部分可以自定义输入的,可用PaddleOCR,也可以用其他OCR服务 参考文档:UIE Taskflow使用指南 使用PaddleOCR的示例:

from paddleocr import PaddleOCR
from paddlenlp import Taskflow

# ocr_version对应模型设置
ocr = PaddleOCR(use_angle_cls=True, lang="ch", ocr_version="PP-OCRv3")

# ocr识别
ocr_result = ocr.ocr(you_img_path, rec=True)

# ocr结果组成layout参数
ocr_layout = []
for res in ocr_result:
    for item in res:
        x1, y1 = item[0][0]
        x2, y2 = item[0][2]
        text = item[1][0]
        ocr_layout.append(([x1, y1, x2, y2], text))

ie_task = Taskflow("information_extraction", schema=you_schema, model="uie-x-base", layout_analysis=True)

# uie模型预测
ie_result = ie_task({"doc": you_img_path, "layout": ocr_layout})

print(ie_result)
tianchiguaixia commented 1 year ago

直接传付费的ocr,合合和百度,阿里的ocr api这样识别特别准

tianchiguaixia commented 1 year ago

我的就是使用付费的ocr解决的 d1fcf16f0b4101e0d0a1bbd8a770ff6 136d1fb044eb6806b1a9ea62496392d 7472b82da4ffb9776156b999569c347