Closed junedgar closed 1 year ago
能否分享下你的论文,arxiv上面没有,doi又没有权限下 谢谢关注!论文通过邮件发到你的163邮箱了。随后会在repo更新论文arxiv链接。
能否请教下,video embedding是开源模型抽的,还是自己训练的tsn swin transformer
能否请教下,video embedding是开源模型抽的,还是自己训练的tsn swin transformer
对于video embedding,我们使用的是mmaction2开源项目的TSN-Swin,可见config和extraction script。
对于word embedding,我们使用的是huggingface的chinese-BERT-wwm。
至于能否使用其它模型,我认为是可以的,任意的image(video)-text pretraining model都可以。我们没有用,是因为这项研究开展时multimodal-pretraining还未成熟。(但是不要用WenLan,它的结果我们和其它几个同行当时没复现出来,提了issue也不理)
能否请教下,video embedding是开源模型抽的,还是自己训练的tsn swin transformer
对于video embedding,我们使用的是mmaction2开源项目的TSN-Swin,可见config和extraction script。
对于word embedding,我们使用的是huggingface的chinese-BERT-wwm。
至于能否使用其它模型,我认为是可以的,任意的image(video)-text pretraining model都可以。我们没有用,是因为这项研究开展时multimodal-pretraining还未成熟。(但是不要用WenLan,它的结果我们和其它几个同行当时没复现出来,提了issue也不理)
十分感谢你的答复,期待有机会能跟你进一步交流
能否分享下你的论文,arxiv上面没有,doi又没有权限下