RapidAI / RapidOCRPDF

Based on RapidOCR, extract the PDF content.
Apache License 2.0
133 stars 14 forks source link

pdf去除页眉页脚 #10

Closed li-wen22 closed 8 months ago

li-wen22 commented 8 months ago

在解析pdf的时候,解析出的文字信息会包含页眉页脚,使得全文并不通畅,这个有合适的解决思路吗?谢谢

SWHL commented 8 months ago

这个可以用版面分析模型提前过滤一下。可以参见rapid_layout