FudanVI / benchmarking-chinese-text-recognition

This repository contains datasets and baselines for benchmarking Chinese text recognition.
MIT License
403 stars 51 forks source link

竖排及不规则识别 #5

Closed clscy closed 2 years ago

clscy commented 2 years ago

您好,非常感谢您的工作。我是了您提供的demo,发现模型对竖排和不规则字符图片识别不准确,请问为什么,还需要做哪些预处理?谢谢。

hyangyu commented 2 years ago

您好,非常感谢您的工作。我是了您提供的demo,发现模型对竖排和不规则字符图片识别不准确,请问为什么,还需要做哪些预处理?谢谢。

您好,感谢您对我们工作的支持。模型对竖排文本存在不鲁棒的主要原因是训练数据集中竖排文本的数量就较少。我们在实验过程中发现,基于注意力的方式在一定数据量的情况下是可以较好的解决竖排文本的问题。此外,如果您使用的测试集中包含较多的竖排文本时,那么训练时使用较小的长宽比图像尺寸会得到更好的性能。希望这个回答能够给您提供帮助。

clscy commented 2 years ago

明白了,非常感谢。如果训练尺寸设大一点(比如320*320),网络是不是就可以同时很好地支持横排、竖排和不规则情况了?

hyangyu commented 2 years ago

明白了,非常感谢。如果训练尺寸设大一点(比如320*320),网络是不是就可以同时很好地支持横排、竖排和不规则情况了?

是的,您也可以通过实验有效的证明这一点。