在表格识别时内容缺失

YoungWWan commented 1 month ago

目前我在进行表格识别时会遇到换行内容识别不全，我查看源码发现在进行图片识别时使用的是原始的RGB图片，我使用cv2.cvtColor(np.asarray(new_image), cv2.COLOR_RGB2BGR)转成BGR后丢失的部分就正常识别了

magic_pdf/model/pdf_extract_kit.py 380行

Linux

3.10

0.8.x

cuda

myhloli commented 1 month ago

感谢反馈，@papayalove 看一下这个问题

myhloli commented 4 days ago

你是对的，我重新阅读了ppocr的源码，paddle在表格解析前是使用cv2读取图片，这样默认是BGR通道，我们是使用pillow截图，这样默认是RGB通道

opendatalab / MinerU