PaddlePaddle / PaddleX

All-in-One Development Tool based on PaddlePaddle(飞桨低代码开发工具)
Apache License 2.0
4.93k stars 965 forks source link

识别多页pdf的表格,出现预测多次的情况 #2397

Open CCbird opened 2 weeks ago

CCbird commented 2 weeks ago

使用PP-ChatOCRv3-doc pipeline。 预测重复的情况发生在 页面只有上半部分有内容的pdf页面, image

如整页都写满内容则暂时没有预测重复的情况。 网页版demo识别也是如此。

liu-jiaxuan commented 2 weeks ago

请问预测重复是指什么呢

CCbird commented 2 weeks ago

请问预测重复是指什么呢

就是一个表格识别了两次,产生两个图片,且识别出来的表格排版、准确度有点不同

liu-jiaxuan commented 2 weeks ago

收到,我们复现下哈