RapidAI / RapidOCRPDF

Based on RapidOCR, extract the PDF content.
Apache License 2.0
131 stars 14 forks source link

pdf去除页眉页脚 #10

Closed li-wen22 closed 6 months ago

li-wen22 commented 7 months ago

在解析pdf的时候,解析出的文字信息会包含页眉页脚,使得全文并不通畅,这个有合适的解决思路吗?谢谢

SWHL commented 7 months ago

这个可以用版面分析模型提前过滤一下。可以参见rapid_layout