PaddlePaddle / PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
https://paddlepaddle.github.io/PaddleOCR/
Apache License 2.0
44k stars 7.8k forks source link

请教一下,关于三个模型使用的训练数据集构成问题 #2304

Closed dhhcj1 closed 2 years ago

dhhcj1 commented 3 years ago

您好,请问一下,识别模型具体使用了哪些训练数据才能做到这么好的识别结果的?

我也很认真的看了一下PP-OCR这篇论文(包括主页上提供的信息)发现并没有提供使用数据的具体信息, 例如,在论文中提到识别模型使用了1600w合成图像和190W的真实图像,但是我发现您给出的真实数据集(LSVT, RCTW-17, MTWI, CCPD)不足190W, 并且如果使用开源的合成数据集(SyntehText,Text Recognition Data)则超过了1600W .... 所以能否给出一下关于trained(fine-tuned) / pre-trained 训练集的具体使用信息(最好在数量上)呢 ?

期待您的解答

dhhcj1 commented 3 years ago

另外FAQ 上的一些信息可能由于release的原因导致与当前的branch上提供的信息有冲突。。。