想请教一下正确的训练步骤： 1.单独训练语言模型pretrain_language_model.yaml，得到最好的语言模型pretrain-language-model.pth 2.然后单独训练视觉模型，得到pretrain-vision-model.pth 3.最后加载前两个与训练模型联合训练train_abinet.yaml 还是直接训练train_abinet.yaml呢？

FangShancheng / ABINet

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

Other

420 stars 72 forks source link

Open aishangmaxiaoming opened 3 years ago

FangShancheng commented 3 years ago

Hi，@aishangmaxiaoming

aishangmaxiaoming commented 3 years ago

Hi，@aishangmaxiaoming

论文中汇报的精度是根据您描述的，1，2，3三步的训练方式

也可以直接使用train_abinet.yaml，注释两行checkpoint后训练，但这种方式，训练出来的模型效果会稍差些。

谢谢大佬，想问下训练语言模型时，数据集这样：是需要inp 和gt一致，还是不一致呢