[Question]: 在使用UIE-X 进行实体抽取的时候，如何提升OCR的识别(中文)准确率

PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.

https://paddlenlp.readthedocs.io

Apache License 2.0

12.17k stars 2.95k forks source link

[Question]: 在使用UIE-X 进行实体抽取的时候，如何提升OCR的识别(中文)准确率 #6281

Open whisky-12 opened 1 year ago

whisky-12 commented 1 year ago

请提出你的问题

请问，在使用UIE-X 模型微调时，进行实体抽取的时候，如何提升OCR的识别(中文)准确率，目前提取关系正常，但OCR识别结果存在错别字和未识别到的部分

yutong12 commented 1 year ago

这个没什么办法，只能是OCR那里检测和识别要下功夫标注训练调整

whisky-12 commented 1 year ago

OCR

您好，那请问单ocr识别精度有办法提升嘛？目前识别区域效果可以，但提取出的数字存在错误识别的情况，ocr识别效果不如paddlehub中的mobile模型

yutong12 commented 1 year ago

您好，如果您认为目前的OCR效果没有PADDLEHUB上的模型效果好，可以分开，就是使用检测模型检测，将检测到的区域传递给你想要使用的PADDLEHUB模型让其识别，从而达到一个较好的效果

whisky-12 commented 1 year ago

您好，如果您认为目前的OCR效果没有PADDLEHUB上的模型效果好，可以分开，就是使用检测模型检测，将检测到的区域传递给你想要使用的PADDLEHUB模型让其识别，从而达到一个较好的效果

好的感谢，辛苦了，其实我现在对nlp基础架构也不是太了解，目前处于变学变用的状态，再次感谢您的指点，辛苦了！！！！

whisky-12 commented 1 year ago

您好，我刚看了下，加载 TaskFlow时会自动下载加载paddleocr中ch_ppocr_mobile_v2.0的三个静态图模型 /.paddleocr/whl/ ，具体信息如下，下载我希望尝试通过修改代码中这段配置，来替换模型为ch_ppocr_server_v2.0 ，但没有找到相关的代码。不知您对此是否有了解，辛苦了！！！

huanghao128 commented 1 year ago

OCR识别部分可以自定义输入的，可用PaddleOCR，也可以用其他OCR服务参考文档：UIE Taskflow使用指南使用PaddleOCR的示例：

from paddleocr import PaddleOCR
from paddlenlp import Taskflow

# ocr_version对应模型设置
ocr = PaddleOCR(use_angle_cls=True, lang="ch", ocr_version="PP-OCRv3")

# ocr识别
ocr_result = ocr.ocr(you_img_path, rec=True)

# ocr结果组成layout参数
ocr_layout = []
for res in ocr_result:
    for item in res:
        x1, y1 = item[0][0]
        x2, y2 = item[0][2]
        text = item[1][0]
        ocr_layout.append(([x1, y1, x2, y2], text))

ie_task = Taskflow("information_extraction", schema=you_schema, model="uie-x-base", layout_analysis=True)

# uie模型预测
ie_result = ie_task({"doc": you_img_path, "layout": ocr_layout})

print(ie_result)

tianchiguaixia commented 1 year ago

直接传付费的ocr，合合和百度，阿里的ocr api这样识别特别准

tianchiguaixia commented 1 year ago

我的就是使用付费的ocr解决的 d1fcf16f0b4101e0d0a1bbd8a770ff6 136d1fb044eb6806b1a9ea62496392d 7472b82da4ffb9776156b999569c347