RapidAI / RapidOCRPDF

Based on RapidOCR, extract the PDF content.
Apache License 2.0
131 stars 14 forks source link

针对PDF是那种一页上面分成两竖列的PDF,识别时是按一行完成再识别第二行的这种情况有参数可以调整吗? #11

Closed tslxxcxy closed 6 months ago

tslxxcxy commented 7 months ago

Snipaste_2024-03-30_21-18-13 如上图一样,它识别是每一行一行的识别出来的,但是我想能不能通过参数让它识别是按左右部分完成的

SWHL commented 7 months ago

这个暂时没有参数控制,需要自己后处理一下

tslxxcxy commented 7 months ago

好的,非常感谢,

tslxxcxy commented 6 months ago

你好,那这种问题,是不是也可以用你在issue,提过的就是处理页眉页脚的方法通过layout模块去识别一下pdf的版面行吗,或者说是在依托的RapidOCR上加参数,这种行不行

SWHL commented 6 months ago

可以的

tslxxcxy commented 6 months ago

试了。那个raplayout只能识别图片。如果我把PDF文件转为图片,可以识别,但是通过rapidocr识别这个转换为图片的pdf.错误率很大。可能要等你有时间把这个版面还原实现后就没问题了。不得不说大佬你这个识别扫描版的pdf是真的厉害。没有错误,但是转为图片后通过rapidocr识别就有错误。