PaddlePaddle / PaddleDetection

Object Detection toolkit based on PaddlePaddle. It supports object detection, instance segmentation, multiple object tracking and real-time multi-person keypoint detection.
Apache License 2.0
12.83k stars 2.89k forks source link

OCR版面识别 #9188

Closed whwususu closed 3 weeks ago

whwususu commented 1 month ago

问题确认 Search before asking

请提出你的问题 Please ask your question

请问下,版面分析模型的训练方法我看了半天不得其解,都是提供了各种数据集进行训练,而不是自定义训练集。那么有不有例如通过打标的方式,生成自己的训练集,然后进行训练的。 这个是我看的教程。https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/layout/README_ch.md 谢谢!

Sunting78 commented 1 month ago

您好,可以标注自己的数据集进行训练,可以参考这里面的版面区域定位文档https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-beta1/docs/module_usage/tutorials/ocr_modules/layout_detection.md和 标注文档 https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-beta1/docs/data_annotations/cv_modules/object_detection.md

whwususu commented 4 weeks ago

调整了epochs_iters参数到10,可以了。我拿样例数据在原有的模型基础上训练,完成以后,发现训练前还没训练后的识别类型多,难道没有继承前模型的能力? image image

Sunting78 commented 3 weeks ago

您好,训练后的类别数量和你训练的数据的类别数量是一致的。只要训练了,类别数量就会根据训练数据而改变。并不是集成原始模型分多少类别的能力,而且原始模型作为预训练模型提供在版面上训练过的权重,能更快收敛

whwususu commented 3 weeks ago

您好,训练后的类别数量和你训练的数据的类别数量是一致的。只要训练了,类别数量就会根据训练数据而改变。并不是集成原始模型分多少类别的能力,而且原始模型作为预训练模型提供在版面上训练过的权重,能更快收敛 image 我用的是这个命令,参数只把批量提交和迭代次数调整了一下,这会是什么原因导致的,训练完成后,标签只有我自己新增的。

原模型能够识别出来的Image标签,用现在的训练后的模型去推理,都识别不出来图片元素了