hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
23.05k stars 2.35k forks source link

系统能够识别并将PDF文件中的表格转换为可读的Markdown格式 #490

Open hexixiang opened 2 months ago

hexixiang commented 2 months ago

Issues

Expected behavior 预期的功能

通过增强解析功能,使系统能够识别并将PDF文件中的表格转换为可读的Markdown格式,从而提高文件的可读性和可编辑性。

Approximate reference (optional) 近似的参考(可选)

No response

hiroi-sora commented 2 months ago
lison666 commented 2 months ago

能否顺带提供pdf转html的功能吗

hiroi-sora commented 2 months ago

能否顺带提供pdf转html的功能吗

这是更困难、更遥远的事情了。走一步看一步,等我们有了底层的识别模块,再考虑上层的输出模块。