opendatalab / PDF-Extract-Kit

A Comprehensive Toolkit for High-Quality PDF Content Extraction
https://pdf-extract-kit.readthedocs.io/zh-cn/latest/index.html
GNU Affero General Public License v3.0
5.27k stars 356 forks source link

表格文本latex及段落顺序 #111

Open kendrickliu opened 1 month ago

kendrickliu commented 1 month ago

您好,有问题想咨询 1.从类别上看category_id=1的plain_text是正文自然段落的文本,latex是category_id=5的表格的文本。但是我看解析后的json文件中, "category_id":1没有text值,只有category_id=15的'ocr_text'有文本,'ocr_text'的“text”文本段是否可以理解为是除去表格内容后的正文文本? 2.上下文顺序有部分不太对的上,是否存在坐标排序? 附上截图,感谢

![Uploading 1725428833581.png…]()

ouyanglinke commented 1 month ago
  1. category_id=1是layout模型的结果,是段落级别的文本的框,只有bbox信息;15是OCR模型的结果,包含bbox和文本;如果想利用ocr_text来组成plain_text文本框内的整个自然段,需要跑MinerU的后处理;
  2. 阅读顺序排序的代码也在MinerU里;