识别改训练图片参数

2205825969 commented 2 years ago

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：
版本号/Version：Paddle： PaddleOCR：问题相关组件/Related components：
运行指令/Command Code：
完整报错/Complete Error Message：识别训练图片能不能改成（3,64,100），除了配置文件要改，其他还有需要改的吗

andyjiang1116 commented 2 years ago

改配置文件就可以了

2205825969 commented 2 years ago

大佬，我直接改配置文件如下
Global: debug: true use_gpu: false epoch_num: 1200 log_smooth_window: 20 print_batch_step: 1000 save_model_dir: F:\pythonProject\PaddleOCR-release-2.4/output/rec/mv3_none_bilstm_ctc_punctuation/ save_epoch_step: 100 eval_batch_step:

0
2000 cal_metric_during_train: true pretrained_model: checkpoints: null save_inference_dir: null use_visualdl: false infer_img: doc/imgs_words_en/word_10.png character_dict_path: F:\pythonProject\PaddleOCR-release-2.4/ppocr/utils/yw_dict.txt max_text_length: 25 infer_mode: false use_space_char: false save_res_path: F:\pythonProject\PaddleOCR-release-2.4/output/rec/predicts_mv3_none_bilstm_ctc.txt Optimizer: name: Adam beta1: 0.9 beta2: 0.999 lr: learning_rate: 0.0005 regularizer: name: L2 factor: 0 Architecture: model_type: rec algorithm: CRNN Transform: null Backbone: name: MobileNetV3 scale: 0.5 model_name: large Neck: name: SequenceEncoder encoder_type: rnn hidden_size: 96 Head: name: CTCHead fc_decay: 0 Loss: name: CTCLoss PostProcess: name: CTCLabelDecode Metric: name: RecMetric main_indicator: acc Train: dataset: name: SimpleDataSet data_dir: F:\pythonProject\PaddleOCR-release-2.4/traindata/test_rec/train label_file_list:
- F:\pythonProject\PaddleOCR-release-2.4/traindata/test_rec/train_label.txt transforms:
- DecodeImage: img_mode: BGR channel_first: false
- CTCLabelEncode: null
- RecResizeImg: image_shape:
  - 3
  - 64
  - 100
- KeepKeys: keep_keys:
  - image
  - label
  - length loader: shuffle: false batch_size_per_card: 16 drop_last: true num_workers: 8 Eval: dataset: name: SimpleDataSet data_dir: F:\pythonProject\PaddleOCR-release-2.4/traindata/test_rec/test label_file_list:
- F:\pythonProject\PaddleOCR-release-2.4/traindata/test_rec/test_label.txt transforms:
- DecodeImage: img_mode: BGR channel_first: false
- CTCLabelEncode: null
- RecResizeImg: image_shape:
  - 3
  - 64
  - 100
- KeepKeys: keep_keys:
  - image
  - label
  - length loader: shuffle: false drop_last: false batch_size_per_card: 16 num_workers: 4 profiler_options: null
但是报错 Traceback (most recent call last): File "F:/pythonProject/PaddleOCR-release-2.4/tools/train.py", line 149, in main(config, device, logger, vdl_writer) File "F:/pythonProject/PaddleOCR-release-2.4/tools/train.py", line 124, in main program.train(config, train_dataloader, valid_dataloader, device, model, File "F:\pythonProject\PaddleOCR-release-2.4\tools\program.py", line 245, in train preds = model(images) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 917, in call return self._dygraph_call_func(*inputs, kwargs) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 907, in _dygraph_call_func outputs = self.forward(*inputs, *kwargs) File "F:\pythonProject\PaddleOCR-release-2.4\ppocr\modeling\architectures\base_model.py", line 78, in forward x = self.neck(x) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 917, in call return self._dygraph_call_func(inputs, kwargs) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 907, in _dygraph_call_func outputs = self.forward(*inputs, kwargs) File "F:\pythonProject\PaddleOCR-release-2.4\ppocr\modeling\necks\rnn.py", line 89, in forward x = self.encoder_reshape(x) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 917, in call return self._dygraph_call_func(*inputs, *kwargs) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 907, in _dygraph_call_func outputs = self.forward(inputs, kwargs) File "F:\pythonProject\PaddleOCR-release-2.4\ppocr\modeling\necks\rnn.py", line 31, in forward assert H == 1 AssertionError

andyjiang1116 commented 2 years ago

高度变为64后，需要增大最后一层卷积的stride，在这里https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.4/ppocr/modeling/backbones/rec_mv1_enhance.py#L203 把stride=1改为stride=(2, 1)

2205825969 commented 2 years ago

大佬我修改了，但是还是出现这个错误

    conv6 = DepthwiseSeparable(
        num_channels=int(1024 * scale),
        num_filters1=1024,
        num_filters2=1024,
        num_groups=1024,
        stride=(2, 1),
        dw_size=5,
        padding=2,
        use_se=True,
        scale=scale)
    self.block_list.append(conv6)

                           ......
                           ......
                           ......

[2022/03/31 20:19:48] root INFO: train from scratch [2022/03/31 20:19:48] root INFO: train dataloader has 62 iters [2022/03/31 20:19:48] root INFO: valid dataloader has 7 iters [2022/03/31 20:19:48] root INFO: During the training process, after the 0th iteration, an evaluation is run every 2000 iterations [2022/03/31 20:19:48] root INFO: Initialize indexs of datasets:['F:\pythonProject\PaddleOCR-release-2.4/traindata/test_rec/train_label.txt'] Traceback (most recent call last): File "F:/pythonProject/PaddleOCR-release-2.4/tools/train.py", line 149, in main(config, device, logger, vdl_writer) File "F:/pythonProject/PaddleOCR-release-2.4/tools/train.py", line 124, in main program.train(config, train_dataloader, valid_dataloader, device, model, File "F:\pythonProject\PaddleOCR-release-2.4\tools\program.py", line 245, in train preds = model(images) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 917, in call return self._dygraph_call_func(*inputs, kwargs) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 907, in _dygraph_call_func outputs = self.forward(*inputs, *kwargs) File "F:\pythonProject\PaddleOCR-release-2.4\ppocr\modeling\architectures\base_model.py", line 78, in forward x = self.neck(x) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 917, in call return self._dygraph_call_func(inputs, kwargs) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 907, in _dygraph_call_func outputs = self.forward(*inputs, kwargs) File "F:\pythonProject\PaddleOCR-release-2.4\ppocr\modeling\necks\rnn.py", line 89, in forward x = self.encoder_reshape(x) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 917, in call return self._dygraph_call_func(*inputs, *kwargs) File "D:\anaconda3\envs\ocr\lib\site-packages\paddle\fluid\dygraph\layers.py", line 907, in _dygraph_call_func outputs = self.forward(inputs, kwargs) File "F:\pythonProject\PaddleOCR-release-2.4\ppocr\modeling\necks\rnn.py", line 31, in forward assert H == 1 AssertionError

Process finished with exit code 1

andyjiang1116 commented 2 years ago

抱歉，刚才看错了，你用的backbone是MobileNetV3，改一下这里的stride https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.4/ppocr/modeling/backbones/rec_mobilenet_v3.py#L124

Sarayue00 commented 2 years ago

预训练模型要与配置文件相匹配:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.4/doc/doc_ch/models_list.md

PaddlePaddle / PaddleOCR

识别改训练图片参数 #5850