hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
24.51k stars 2.48k forks source link

pdf 识别 忽略区域(点击文档名进入设置) 相关问题 #383

Closed aiastia closed 5 months ago

aiastia commented 6 months ago

目前只能忽略整个文档的特定区域 能否设置忽略特定页面的区域。 比如有很多pdf 第一页都是有大标题 后面的页面又都是正文。 能否设置忽略第一页的区域

hiroi-sora commented 6 months ago

是否这样:

为忽略区域设定一个 “应用范围“ 。比如应用范围 2-10 表示只有第2页~第10页的才会启用忽略区域,其余页数保持原样。

aiastia commented 6 months ago

是否这样:

为忽略区域设定一个 “应用范围“ 。比如应用范围 2-10 表示只有第2页~第10页的才会启用忽略区域,其余页数保持原样。

我也觉得这样比较好 。

aiastia commented 6 months ago

是否这样:

为忽略区域设定一个 “应用范围“ 。比如应用范围 2-10 表示只有第2页~第10页的才会启用忽略区域,其余页数保持原样。

能否额外添加一个 第一页 和 最后一页 批量识别的时候不是所有的文档都有10 页 这种

hiroi-sora commented 6 months ago

支持用负数表示“倒数”,比如 【1】~【-2】表示从正1页~倒数2页的范围。

hiroi-sora commented 5 months ago

新版本已发布,支持该功能。

aiastia commented 5 months ago

新版本已发布,支持该功能。

感谢。 想问一下 忽略区域能否 设置不同 比如 一个区域是忽略全文的位置 一个区域是忽略部分页面的位置

hiroi-sora commented 5 months ago

忽略区域能否 设置不同 比如 一个区域是忽略全文的位置 一个区域是忽略部分页面的位置

这类需求想法是无上限的,如果要支持区分页数的不同配置,那么要不要支持区分文件的不同配置?要不要支持区分页面尺寸的不同配置?要不要根据背景颜色或文本内容区分不同配置?…………

总之,技术上是能够实现,但是需求膨胀后维护成本高、普通用户学习使用的难度也高。我暂时不想让忽略区域的操作变得更复杂了,除非有大量用户想要某个具体的功能。

不过,鼓励用户二次开发本项目实现自己的小众需求,你可以自己动手试试,有问题可以问我。

aiastia commented 5 months ago

忽略区域能否 设置不同 比如 一个区域是忽略全文的位置 一个区域是忽略部分页面的位置

这类需求想法是无上限的,如果要支持区分页数的不同配置,那么要不要支持区分文件的不同配置?要不要支持区分页面尺寸的不同配置?要不要根据背景颜色或文本内容区分不同配置?…………

总之,技术上是能够实现,但是需求膨胀后维护成本高、普通用户学习使用的难度也高。我暂时不想让忽略区域的操作变得更复杂了,除非有大量用户想要某个具体的功能。

不过,鼓励用户二次开发本项目实现自己的小众需求,你可以自己动手试试,有问题可以问我。

主要是 pdf 有图表 识别效果不佳…… 想 排除特定的图表区域