FangShancheng / ABINet

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition
Other
420 stars 72 forks source link

想请教一下正确的训练步骤: 1.单独训练语言模型pretrain_language_model.yaml,得到最好的语言模型pretrain-language-model.pth 2.然后单独训练视觉模型,得到pretrain-vision-model.pth 3.最后加载前两个与训练模型联合训练train_abinet.yaml 还是直接训练train_abinet.yaml呢? #26

Open aishangmaxiaoming opened 3 years ago

FangShancheng commented 3 years ago

Hi,@aishangmaxiaoming

  1. 论文中汇报的精度是 根据您描述的,1,2,3三步的训练方式
  2. 也可以直接使用train_abinet.yaml,注释两行checkpoint后训练,但这种方式,训练出来的模型效果会稍差些。
aishangmaxiaoming commented 3 years ago

Hi,@aishangmaxiaoming

  1. 论文中汇报的精度是 根据您描述的,1,2,3三步的训练方式
  2. 也可以直接使用train_abinet.yaml,注释两行checkpoint后训练,但这种方式,训练出来的模型效果会稍差些。

谢谢大佬,想问下训练语言模型时,数据集这样:是需要inp 和gt一致,还是不一致呢

image