关于视频文本的训练问题

PKU-YuanGroup / LanguageBind

【ICLR 2024🔥】 Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

https://arxiv.org/abs/2310.01852

MIT License

723 stars 52 forks source link

Closed Tunanzzz closed 7 months ago

Tunanzzz commented 7 months ago

是否在训练视频文本的时候没有添加时间维度的信息，也就是没有使用3D卷积？？期待回复