LBH1024 / CAN

When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition (ECCV’2022 Poster).
MIT License
364 stars 59 forks source link

关于代码中对图像的设置 #8

Closed 1193700079 closed 2 years ago

1193700079 commented 2 years ago

想知道设置mask的作用具体是什么? 并且网络对图像的size也没有进行限制,宽高和label长度都是取自每次批处理的最大值,想知道这样做的用意是什么? 但是对于通道数是设置了684

LBH1024 commented 2 years ago

想知道设置mask的作用具体是什么? 并且网络对图像的size也没有进行限制,宽高和label长度都是取自每次批处理的最大值,想知道这样做的用意是什么? 但是对于通道数是设置了684

你好,对于输入网络的图像,取该batch内图像的最大尺寸为底,对于batch内较小的图像,相当于是在右方和下方做了padding。这种做法不用去resize图像,能保留图像的原始尺寸信息。而mask就是用来区分图像区域和padding区域的,在解码计算attention的时候会用到。684是所用的DenseNet输出特征图的通道数,和之前的公式识别方法保持一致。

1193700079 commented 2 years ago

嗯好的谢谢 ,可以修改成固定大小进入网络吗,会对计数模块有影响吗?如果这样通过padding输入的话尺寸太大,计算量也比较大了。

LBH1024 commented 2 years ago

你可以试一下固定大小输入,在CROHME上精度应该会降低不少。

1193700079 commented 2 years ago

好的,明白了,感谢作者。

LBH1024 commented 2 years ago

不客气,感谢关注。