相同大小的字，图片尺寸不同大小识别效果相差很大

YCG09 / chinese_ocr

CTPN + DenseNet + CTC based end-to-end Chinese OCR implemented using tensorflow and keras

Apache License 2.0

2.73k stars 1.08k forks source link

相同大小的字，图片尺寸不同大小识别效果相差很大 #348

Open 280868756 opened 4 years ago

280868756 commented 4 years ago

相同的字，相同大小的2 个图片，1个图片尺寸大（空白多），1个图片尺寸小（空白少），识别效果相差很大，图片尺寸小的准确率高，图片尺寸大的准确率相当的低。请问有什么好的解决方法吗？

Sukeysun commented 4 years ago

可以在训练数据集中添加空白多的图片；或者在测试的时候，把图片的空白部分裁剪掉

fire717 commented 3 years ago

这不是很正常吗，就跟你训练图像分类一样，如果物体占面积很大，提取特征多自然效果就好了。问题是你为什么会有图片尺寸大的？通过检测文本再裁剪，空白都很小啊。

280868756 commented 3 years ago

这不是很正常吗，就跟你训练图像分类一样，如果物体占面积很大，提取特征多自然效果就好了。问题是你为什么会有图片尺寸大的？通过检测文本再裁剪，空白都很小啊。

我的图片都是表格，通过二值化直接规则裁剪单元格的，所以可能会有图片尺寸大的。该repo对表格的检测，裁剪在识别，效果很不好，因为表格有很多线的干扰，尤其是紧凑型表格，几乎分析不出来。有同感吗？

280868756 commented 3 years ago

可以在训练数据集中添加空白多的图片；或者在测试的时候，把图片的空白部分裁剪掉

后者方案我有想过，但是裁剪多少px，我还没有很好的计算方法。望指教

fire717 commented 3 years ago

这不是很正常吗，就跟你训练图像分类一样，如果物体占面积很大，提取特征多自然效果就好了。问题是你为什么会有图片尺寸大的？通过检测文本再裁剪，空白都很小啊。

我的图片都是表格，通过二值化直接规则裁剪单元格的，所以可能会有图片尺寸大的。该repo对表格的检测，裁剪在识别，效果很不好，因为表格有很多线的干扰，尤其是紧凑型表格，几乎分析不出来。有同感吗？

你这种情况更好处理吧，裁剪单元格后用传统图像处理方法比如膨胀腐蚀很容易就可以提取出文本行

280868756 commented 3 years ago

这不是很正常吗，就跟你训练图像分类一样，如果物体占面积很大，提取特征多自然效果就好了。问题是你为什么会有图片尺寸大的？通过检测文本再裁剪，空白都很小啊。

我的图片都是表格，通过二值化直接规则裁剪单元格的，所以可能会有图片尺寸大的。该repo对表格的检测，裁剪在识别，效果很不好，因为表格有很多线的干扰，尤其是紧凑型表格，几乎分析不出来。有同感吗？

你这种情况更好处理吧，裁剪单元格后用传统图像处理方法比如膨胀腐蚀很容易就可以提取出文本行

提取出文本行（字体内容）？还是说提取出文本行（单元格图片）？如果是图片，那么就可能存在余白大的问题。

fire717 commented 3 years ago

这不是很正常吗，就跟你训练图像分类一样，如果物体占面积很大，提取特征多自然效果就好了。问题是你为什么会有图片尺寸大的？通过检测文本再裁剪，空白都很小啊。

我的图片都是表格，通过二值化直接规则裁剪单元格的，所以可能会有图片尺寸大的。该repo对表格的检测，裁剪在识别，效果很不好，因为表格有很多线的干扰，尤其是紧凑型表格，几乎分析不出来。有同感吗？

你这种情况更好处理吧，裁剪单元格后用传统图像处理方法比如膨胀腐蚀很容易就可以提取出文本行

提取出文本行（字体内容）？还是说提取出文本行（单元格图片）？如果是图片，那么就可能存在余白大的问题。

既然你都说了如果是图片，那么就可能存在余白大的问题。那文本行当然指字体内容啊，膨胀腐蚀处理后怎么会包含空白？

280868756 commented 3 years ago

这不是很正常吗，就跟你训练图像分类一样，如果物体占面积很大，提取特征多自然效果就好了。问题是你为什么会有图片尺寸大的？通过检测文本再裁剪，空白都很小啊。

我的图片都是表格，通过二值化直接规则裁剪单元格的，所以可能会有图片尺寸大的。该repo对表格的检测，裁剪在识别，效果很不好，因为表格有很多线的干扰，尤其是紧凑型表格，几乎分析不出来。有同感吗？

你这种情况更好处理吧，裁剪单元格后用传统图像处理方法比如膨胀腐蚀很容易就可以提取出文本行

提取出文本行（字体内容）？还是说提取出文本行（单元格图片）？如果是图片，那么就可能存在余白大的问题。

既然你都说了如果是图片，那么就可能存在余白大的问题。那文本行当然指字体内容啊，膨胀腐蚀处理后怎么会包含空白？

恩哈，非常感谢。