How to obtain a txt document

opendatalab / PDF-Extract-Kit

A Comprehensive Toolkit for High-Quality PDF Content Extraction

GNU Affero General Public License v3.0

5.03k stars 337 forks source link

Open liepinlxy opened 2 hours ago

liepinlxy commented 2 hours ago

I hope to obtain the txt text content after parsing the pdf. How should I do it?

myhloli commented 2 hours ago

liepinlxy commented 2 hours ago

谢谢，我之前看过这个项目的介绍，发现转换出来的是markdown 格式，我其实只关心按照pdf内容顺序提取出来纯文本就可以了，MinerU可以支持么？

myhloli commented 2 hours ago

谢谢，我之前看过这个项目的介绍，发现转换出来的是markdown 格式，我其实只关心按照pdf内容顺序提取出来纯文本就可以了，MinerU可以支持么？

markdown和文本的区别是？

liepinlxy commented 2 hours ago

谢谢，我之前看过这个项目的介绍，发现转换出来的是markdown 格式，我其实只关心按照pdf内容顺序提取出来纯文本就可以了，MinerU可以支持么？

markdown和文本的区别是？

懂你意思了，我先尝试一下