opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://opendatalab.com/OpenSourceTools
GNU Affero General Public License v3.0
11.19k stars 835 forks source link

能不能转化doc成md啊?还是只能pdf转md #491

Open Alan-zhong opened 2 weeks ago

Alan-zhong commented 2 weeks ago

能不能转化doc成md啊?还是只能pdf转md 能不能转化doc成md啊?还是只能pdf转md 能不能转化doc成md啊?还是只能pdf转md

drunkpig commented 2 weeks ago

@Alan-zhong 使用libreoffice命令行,转换office格式到pdf,,然后处理

soffice --headless --convert-to pdf path/to/your/file.docx
laulguo commented 2 weeks ago

DOC转PDF还不简单吗。。

minervazz commented 2 weeks ago

doc转md直接解压处理xml就行了,不用这么复杂

Barmaid1076 commented 1 week ago

doc转md直接解压处理xml就行了,不用这么复杂

应该怎么做呢?

minervazz commented 1 week ago

这个你去csdn搜一下就行,python-docx可以直接解压出xml文件,你可以自己再写一些代码转化为json