PKU-YuanGroup / LanguageBind

【ICLR 2024🔥】 Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment
https://arxiv.org/abs/2310.01852
MIT License
549 stars 44 forks source link

关于视频文本的训练问题 #49

Closed Tunanzzz closed 1 month ago

Tunanzzz commented 1 month ago

是否在训练视频文本的时候没有添加时间维度的信息,也就是没有使用3D卷积??期待回复