the pre-trained cross-modal matching models

facebookresearch / VisualVoice

Audio-Visual Speech Separation with Cross-Modal Consistency

Other

218 stars 35 forks source link

Open attutude opened 2 years ago

attutude commented 2 years ago

Hello, how to generate pre-trained cross-modal matching models facial.pth and vocal.pth.