Closed guangyunms closed 3 weeks ago
Thanks for your contribution!
原PR为# 11984,因为原PR的commit message过于混乱,而重新创建PR。
这里已经有相关的逻辑了,PR里添加的与现有的有什么异同
版面分析的quickstart文档案例确实没有提供pdf格式的处理 demo。感觉可以把main里面相关内容提出来改一改,做一个pdf格式的demo。
这里已经有相关的逻辑了,PR里添加的与现有的有什么异同
我的贡献参考了这里的代码。异同在于已有的代码是通过命令行方式运行的,而我的贡献是通过Python脚本运行的。开发者可能更习惯Python脚本的方式
版面分析的quickstart文档案例确实没有提供pdf格式的处理 demo。感觉可以把main里面相关内容提出来改一改,做一个pdf格式的demo。
确实,我目前参考quickstart文档里已有的案例写了一个demo。
main里面是先把pdf文件解析成单个图片,然后再对单个图片处理。可能并不需要直接传pdf到 PPStructure engine。只需要把demo改成先解析pdf,再处理图片的形式。这样改动最小,也解决了用户的疑惑。
main里面是先把pdf文件解析成单个图片,然后再对单个图片处理。可能并不需要直接传pdf到 PPStructure engine。只需要把demo改成先解析pdf,再处理图片的形式。这样改动最小,也解决了用户的疑惑。
这样子也可以的,我觉得可以把两种方式都写上,一种是直接传pdf,因为现有文档里命令行的运行方式就是直接传入的pdf文件路径,用户看了之后可能觉得这种更符合使用的直觉。另一种是用户自己先对pdf进行处理解析成图片,再处理图片。
写好之后我再合并到之前的版面分析里吧。
您这边觉得如何? @GreatV
@guangyunms 看了一下,ocr部分是支持pdf infer的,所以这么改也是合理的。可以按照你的想法做。
测试了一下两个demo都能正常工作。