SCZwangxiao / RADAR-MM2022

ACM Multimedia 2022 - Micro-video Tagging via Jointly Modeling Social Influence and Tag Relation
Apache License 2.0
6 stars 0 forks source link

can you share your paper? #1

Closed junedgar closed 1 year ago

junedgar commented 1 year ago

能否分享下你的论文,arxiv上面没有,doi又没有权限下

SCZwangxiao commented 1 year ago

能否分享下你的论文,arxiv上面没有,doi又没有权限下 谢谢关注!论文通过邮件发到你的163邮箱了。随后会在repo更新论文arxiv链接。

junedgar commented 1 year ago

能否请教下,video embedding是开源模型抽的,还是自己训练的tsn swin transformer

SCZwangxiao commented 1 year ago

能否请教下,video embedding是开源模型抽的,还是自己训练的tsn swin transformer

对于video embedding,我们使用的是mmaction2开源项目的TSN-Swin,可见configextraction script

对于word embedding,我们使用的是huggingface的chinese-BERT-wwm

至于能否使用其它模型,我认为是可以的,任意的image(video)-text pretraining model都可以。我们没有用,是因为这项研究开展时multimodal-pretraining还未成熟。(但是不要用WenLan,它的结果我们和其它几个同行当时没复现出来,提了issue也不理)

junedgar commented 1 year ago

能否请教下,video embedding是开源模型抽的,还是自己训练的tsn swin transformer

对于video embedding,我们使用的是mmaction2开源项目的TSN-Swin,可见configextraction script

对于word embedding,我们使用的是huggingface的chinese-BERT-wwm

至于能否使用其它模型,我认为是可以的,任意的image(video)-text pretraining model都可以。我们没有用,是因为这项研究开展时multimodal-pretraining还未成熟。(但是不要用WenLan,它的结果我们和其它几个同行当时没复现出来,提了issue也不理)

十分感谢你的答复,期待有机会能跟你进一步交流