Open idealkindom opened 6 months ago
可以上传一些样本看看吗
可以上传一些样本看看吗
我也遇到了这个问题,我上传了一个pdf,大佬你看看 [Uploading 政治经济学批判:马克思《资本论》导论.pdf…]()
@hijos
你文件没有上传完哦。将文件拖进网页后,一定要等文件链接刷新出来,再 Comment 。
@hijos
你文件没有上传完哦。将文件拖进网页后,一定要等文件链接刷新出来,再 Comment 。
不好意思,重新上传了 政治经济学批判:马克思《资本论》导论.pdf
好,我已复现相同问题,正在调查。
作为代替方案,设置 → 内容提取模式 → 改为 整页强制OCR 可以避免该问题。
在样例PDF中,图像实际上超出了页面范围,在页面以外还存在一部分。因此,Umi误以为这张图片不属于本页,因此忽略了该图片。
v2.1.0正式已修复该问题。如果出现识别内容显著乱码的情况,请尝试:设置 → 内容提取模式 → 改为 整页强制OCR
。
另外,样例中,PDF首页的图片的源文件 实际上旋转了90°,可能导致常规模式的OCR无法识别,或者识别后的文字位置不匹配。 暂时没有好的解决办法。
正在尝试解决 该PDF的文本写入偏移问题。
目前(最新main分支)用 整页强制OCR
模式,可以准确写入所有文本。但 混合OCR
模式会出现写入文本位置不正确的问题。
Link: 异常样本:政治经济学批判_1_10.pdf | https://github.com/hiroi-sora/Umi-OCR/commit/beb9b8ba7833853b5be375ee93e05e3042dba7a6#r140847597 | #460
正在解决 PDF 的文本偏移尝试问题。
目前(最新主分支)用
整页强制OCR
模式,可以准确写入所有文本。但混合OCR
模式会出现写入文本位置不正确的问题。链接: 异常样本:政治经济学批评_1_10.pdf | #r140847597 | beb9b8b第460章
- [x] 图像仅偏移
- [x] 图片仅旋转
- [ ] 偏移+旋转
这个样本不单是旋转和超越边界的问题,我试了裁剪页面再识别时发现还有个缩放问题.....
如题,原因是分辨率匹配问题吗?!