Closed Halflifefa closed 1 month ago
测试了样本pdf,因为文件格式特殊,会导致依赖库pdfminer崩溃,对于本样本,可以在命令行加入 --method txt 跳过程序初始的pdf版本识别阶段。
测试了样本pdf,因为文件格式特殊,会导致依赖库pdfminer崩溃,对于本样本,可以在命令行加入 --method txt 跳过程序初始的pdf版本识别阶段。
好的,成功了,感谢
@Halflifefa 又有其他用户反馈这个问题了,确认了下是只在最新版pdfminer.six上才会出现 因此可以用
pip install pdfminer.six==20231228
来修复此问题
Description of the bug | 错误描述
无法将提取后json内容拼接成新文档,使用pdf文档为该链接提供的pdf
How to reproduce the bug | 如何复现
解析json
转换json
报错如下
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
0.6.x
Device mode | 设备模式
cuda