A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
GNU Affero General Public License v3.0
13.06k
stars
973
forks
source link
文档解析的一些 Bad cases #433
Open
yzztin opened 2 months ago
Description of the bug | 错误描述
本 issue 仅提供一些本人遇到的错误解析的 PDF 案例,请不必回复,请开发者自行斟酌是否需要如下 PDF 附件。
在尝试对 “论文” 进行解析的时候,有些文章会出现如下问题:
附件如下,问题已简要写在标题上: ccs-1993-2-标题未识别.pdf ccs-1993-8- 标题未识别.pdf ccs-1993-10-标题未识别.pdf ccs-1993-24-最后一段未识别.pdf ccs-1994-2-双列错误识别.pdf
How to reproduce the bug | 如何复现
解析文件即可
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
0.6.x
Device mode | 设备模式
cuda