jiangxiluning / MASTER-TF

MASTER
MIT License
139 stars 43 forks source link

About inference time #13

Closed Laeglaur closed 3 years ago

Laeglaur commented 3 years ago

作者您好,我使用您的网络进行测试,硬件环境也是V100,但FPS大概在4左右,averaged_infer_time: 203.730ms,和论文所给的9.22ms相差较远,是否存在什么问题? 另外,我为了和deep-text-recognition进行对比,将网络输入大小改为32*100,基于MJ+ST/lower_case训练了4个epoch,精度如下: accuracy: IIIT5k_3000: 0.845 SVT: 0.804 IC03_860: 0.910 IC03_867: 0.908 IC13_857: 0.896 IC13_1015: 0.891 IC15_1811: 0.675 IC15_2077: 0.595 SVTP: 0.693 CUTE80: 0.667
total_accuracy: 0.779 好像这个精度相较于TPS-BLSTM-Attn, SAR, 另一篇基于transformer的网络([https://arxiv.org/pdf/1906.05708.pdf]))都会有一点偏低,无法看出网络的优越性。如何能实现论文所给的精度呢

jiangxiluning commented 3 years ago

@Laeglaur 4 epoch,对于基于 Transformer 的模型来说轮数有点少了,收敛不完全,导致精度较低是可能的。 关于推理时间,之前 9.22 ms 是基于一个batch算的均摊时间,对于 V100 来说如果没记错 batch 越大,fps 越大。

Laeglaur commented 3 years ago

非常感谢您的回复。 好的,那我再训训。哦哦那我明白这个时间了,的确是batch越大,fps越大。但我在同样的环境下,batch_size都设为1,SAR和TPS-BLSTM-Attn 的FPS都会高于您的网络,这好像和您论文给的结论不太一致。 您之前的回复里说另一篇基于transformer的论文被证明有误(我的邮箱收到了那条回复信息),我有复现那篇论文,虽然没有达到论文给的精度,但也不算差,如果可以的话,您能分享一下,证明其有误的那篇论文吗?

jiangxiluning commented 3 years ago

之前说错误的文章是我看错了,那边文章没问题。我以为是另一篇