PKU-YuanGroup / LanguageBind

【ICLR 2024🔥】 Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment
https://arxiv.org/abs/2310.01852
MIT License
723 stars 52 forks source link

关于视频文本的训练问题 #49

Closed Tunanzzz closed 7 months ago

Tunanzzz commented 7 months ago

是否在训练视频文本的时候没有添加时间维度的信息,也就是没有使用3D卷积??期待回复