FangShancheng / ABINet

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition
Other
428 stars 72 forks source link

关于论文里最终的准确率 #8

Open yxgnahz opened 3 years ago

yxgnahz commented 3 years ago

您好,请问论文里最后跟其他SOTA相比的ABINet是先pretrain了VM和LM,然后finetune出来的吗?

FangShancheng commented 3 years ago

是的,最好的模型是先分别预训练VM及LM,以及使用上ablation study中其他有益的方法的模型。

simplify23 commented 3 years ago

想问一下ABINet-SV和LV的模型,在SOTA的表中,前两个是只用了MJ ST数据集,语言模型是没有用WikiText-103数据集做预训练。而ABINet-LVst 和est里所指代的Uber-Text是预训练使用的WikiText-103。是这样理解的吗?还是Uber-Text是另外的数据集