请教一下，关于三个模型使用的训练数据集构成问题

PaddlePaddle / PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

Apache License 2.0

44k stars 7.8k forks source link

您好，请问一下，识别模型具体使用了哪些训练数据才能做到这么好的识别结果的？

我也很认真的看了一下PP-OCR这篇论文（包括主页上提供的信息）发现并没有提供使用数据的具体信息，例如，在论文中提到识别模型使用了1600w合成图像和190W的真实图像，但是我发现您给出的真实数据集（LSVT, RCTW-17, MTWI, CCPD）不足190W, 并且如果使用开源的合成数据集（SyntehText，Text Recognition Data）则超过了1600W .... 所以能否给出一下关于trained(fine-tuned) / pre-trained 训练集的具体使用信息（最好在数量上）呢？

期待您的解答

PaddlePaddle / PaddleOCR

请教一下，关于三个模型使用的训练数据集构成问题 #2304