Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
您好,请问一下,识别模型具体使用了哪些训练数据才能做到这么好的识别结果的?
我也很认真的看了一下PP-OCR这篇论文(包括主页上提供的信息)发现并没有提供使用数据的具体信息, 例如,在论文中提到识别模型使用了1600w合成图像和190W的真实图像,但是我发现您给出的真实数据集(LSVT, RCTW-17, MTWI, CCPD)不足190W, 并且如果使用开源的合成数据集(SyntehText,Text Recognition Data)则超过了1600W .... 所以能否给出一下关于trained(fine-tuned) / pre-trained 训练集的具体使用信息(最好在数量上)呢 ?
期待您的解答