jinhong-ni / DEQFusion

PyTorch Implementation of Deep Equilibrium Multimodal Fusion
14 stars 2 forks source link

输入特征为四维,应该修改输入特征还是对DEQ动态融合框架进行修改? #6

Closed sMarch7th closed 3 months ago

sMarch7th commented 3 months ago

您好,很抱歉再次打扰您,对于您之前的回复表示感谢,对于DEQFusion的输入为二维特征向量,关于图片特征作为输入送入网络,您的建议是进行平铺即可,我的特征为(8,64,128,128),第一维度为batch_size,第二维度为特征通道,第三维度为图片特征的高,第四特征为图片特征的宽,请问是将特征进行(864,128128)平铺,还是(8,64128128)进行平铺,亦或者变为(8,64,128*128)后对DEQ_fusion.py按照https://github.com/jinhong-ni/DEQFusion/blob/main/experiments/CMU-MOSI/model.py#L724进行修改,如果您有时间的话,能否给我做一下解答?

jinhong-ni commented 3 months ago

I suggest only flattening the spatial dimension, i.e., H and W.

sMarch7th commented 3 months ago

好的,十分感谢您的回复,我将按照您的建议进行修改,再次感谢您的建议!