dandelin / ViLT

Code for the ICML 2021 (long talk) paper: "ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision"
Apache License 2.0
1.36k stars 209 forks source link

更改输入 #88

Open wzh226 opened 9 months ago

wzh226 commented 9 months ago

您好,或许是否可以把文本和图像的输入改为视图和点云的输入,是不是更改输入和融合的参数以及预训练任务即可实现?整个过程麻烦吗?难度大吗?

wzh226 commented 9 months ago

您好,是否可以把文本和的输入改为视图和点云的输入,是不是改变输入和融合的参数以及预训练就可以实现?整个过程麻烦吗?难度大吗?