针对PDF是那种一页上面分成两竖列的PDF，识别时是按一行完成再识别第二行的这种情况有参数可以调整吗？

RapidAI / RapidOCRPDF

Based on RapidOCR, extract the PDF content.

Apache License 2.0

131 stars 14 forks source link

Closed tslxxcxy closed 6 months ago

tslxxcxy commented 7 months ago

Snipaste_2024-03-30_21-18-13 如上图一样，它识别是每一行一行的识别出来的，但是我想能不能通过参数让它识别是按左右部分完成的

SWHL commented 7 months ago

这个暂时没有参数控制，需要自己后处理一下

tslxxcxy commented 7 months ago

好的，非常感谢，

tslxxcxy commented 6 months ago

你好，那这种问题，是不是也可以用你在issue，提过的就是处理页眉页脚的方法通过layout模块去识别一下pdf的版面行吗，或者说是在依托的RapidOCR上加参数，这种行不行

SWHL commented 6 months ago

可以的

tslxxcxy commented 6 months ago

试了。那个raplayout只能识别图片。如果我把PDF文件转为图片，可以识别，但是通过rapidocr识别这个转换为图片的pdf.错误率很大。可能要等你有时间把这个版面还原实现后就没问题了。不得不说大佬你这个识别扫描版的pdf是真的厉害。没有错误，但是转为图片后通过rapidocr识别就有错误。