A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
GNU Affero General Public License v3.0
13.43k
stars
1.01k
forks
source link
希望提供指定语言的选项。另外希望直接在magic命令这里提供有选择性得输出想要的out文件的选项。 #477
Open
ywh-my opened 2 months ago
(1)希望提供指定OCR语言的选项。 (2)希望提供 有选择性地 :要 .md 文件,要 layout.pdf文件,要 middle.json文件,要images,等等。(因为需求最大的是.md文件,其他的反而比较占存储空间。) 目前看到这些选项都写在了 tools / cli.py 里面,修改 下面这个函数就可以:
,希望以后的版本迭代把这些可选项加上。