opendatalab / PDF-Extract-Kit

A Comprehensive Toolkit for High-Quality PDF Content Extraction
GNU Affero General Public License v3.0
5.03k stars 337 forks source link

How to obtain a txt document #142

Open liepinlxy opened 2 hours ago

liepinlxy commented 2 hours ago

I hope to obtain the txt text content after parsing the pdf. How should I do it?

myhloli commented 2 hours ago

use this project https://github.com/opendatalab/MinerU

liepinlxy commented 2 hours ago

谢谢,我之前看过这个项目的介绍,发现转换出来的是markdown 格式,我其实只关心按照pdf内容顺序提取出来纯文本就可以了,MinerU可以支持么?

myhloli commented 2 hours ago

谢谢,我之前看过这个项目的介绍,发现转换出来的是markdown 格式,我其实只关心按照pdf内容顺序提取出来纯文本就可以了,MinerU可以支持么?

markdown和文本的区别是?

liepinlxy commented 2 hours ago

谢谢,我之前看过这个项目的介绍,发现转换出来的是markdown 格式,我其实只关心按照pdf内容顺序提取出来纯文本就可以了,MinerU可以支持么?

markdown和文本的区别是?

懂你意思了,我先尝试一下