haihuangcode / CMG

The official implementation of Achieving Cross Modal Generalization with Multimodal Unified Representation (NeurIPS '23)
167 stars 2 forks source link

model/CPC.py #4

Open RXin-he opened 8 months ago

RXin-he commented 8 months ago

在pretrain.py文件的第599行里与model/CPC.py里的forward函数中40行的传参和98行返回值是不对应的。

haihuangcode commented 8 months ago

谢谢你的提问。CPC.py里面有2个类,分别是Cross_CPC和Cross_CPC_AVT,前者是用于2个模态(比如audio-video、audio-text、video-text)等,后者是用于3个模态,pretrain.py第599行默认用的Cross_CPC_AVT,如果你需要用Cross_CPC的话可以仿照这修改下输入,把pretrain.py第599行里的text_semantic_result去掉,以及pretrain.sh里的dataset_name更改成‘vggsound_AT’等,别的地方可能也有需要调整输入输出的,因为代码默认用的3模态,对照着修改就行。如果给你造成了麻烦我很抱歉。

RXin-he commented 8 months ago

谢谢你的提问。CPC.py里面有2个类,分别是Cross_CPC和Cross_CPC_AVT,前者是用于2个模态(比如audio-video、audio-text、video-text)等,后者是用于3个模态,pretrain.py第599行默认用的Cross_CPC_AVT,如果你需要用Cross_CPC的话可以仿照这修改下输入,把pretrain.py第599行里的text_semantic_result去掉,以及pretrain.sh里的dataset_name更改成‘vggsound_AT’等,别的地方可能也有需要调整输入输出的,因为代码默认用的3模态,对照着修改就行。如果给你造成了麻烦我很抱歉。

好的,感谢🙏