haihuangcode / CMG

The official implementation of Achieving Cross Modal Generalization with Multimodal Unified Representation (NeurIPS '23)
167 stars 2 forks source link

关于预先对齐过的特征 #9

Closed yanx57 closed 2 months ago

yanx57 commented 2 months ago

您好,我想请问一下,如果我有文本-图像数据对,经过clip得到相应的特征对,再输入到这个结构当中,vqvae输出的向量的对齐程度能比原来的特征对的对齐程度更高吗(就是跨模态的分类准确率能不能更高)?

haihuangcode commented 2 months ago

clip的训练数据量非常大,如果是按类似这个结构用相同级别的训练数据重新预训练可能会比clip的更高,但是直接用clip得到特征对,再输入到这个结构当中,估计不行,这边模型的预训练数据相较于clip太少了。这是我直观的想法,没有进行实验我也不敢打包票。

yanx57 commented 2 months ago

clip的训练数据量非常大,如果是按类似这个结构用相同级别的训练数据重新预训练可能会比clip的更高,但是直接用clip得到特征对,再输入到这个结构当中,估计不行,这边模型的预训练数据相较于clip太少了。这是我直观的想法,没有进行实验我也不敢打包票。

不是使用预训练好的这个结构,而是使用clip提取特征,再用类似的结构进行训练,相当于是二段式,这样呢?还有就是codebook的训练一般都是二阶段的,请问你们是二阶段的吗?

haihuangcode commented 2 months ago

不是使用预训练好的这个结构,而是使用clip提取特征,再用类似的结构进行训练,相当于是二段式,这样呢?还有就是codebook的训练一般都是二阶段的,请问你们是二阶段的吗?

clip与我们这边最大的区别不是对齐方式的不同,而是这边使用了codebook作为多模态统一表征空间,如果直接将clip的特征输入这边的结构进行训练,可能会有所帮助。但是没有进行实验我无法给出给明确的答复。 然后这边codebook的训练与特征的对齐是同时进行的,应该算一个阶段。

yanx57 commented 2 months ago

不是使用预训练好的这个结构,而是使用clip提取特征,再用类似的结构进行训练,相当于是二段式,这样呢?还有就是codebook的训练一般都是二阶段的,请问你们是二阶段的吗?

clip与我们这边最大的区别不是对齐方式的不同,而是这边使用了codebook作为多模态统一表征空间,如果直接将clip的特征输入这边的结构进行训练,可能会有所帮助。但是没有进行实验我无法给出给明确的答复。 然后这边codebook的训练与特征的对齐是同时进行的,应该算一个阶段。

好的,感谢

yanx57 commented 2 months ago

不是使用预训练好的这个结构,而是使用clip提取特征,再用类似的结构进行训练,相当于是二段式,这样呢?还有就是codebook的训练一般都是二阶段的,请问你们是二阶段的吗?

clip与我们这边最大的区别不是对齐方式的不同,而是这边使用了codebook作为多模态统一表征空间,如果直接将clip的特征输入这边的结构进行训练,可能会有所帮助。但是没有进行实验我无法给出给明确的答复。 然后这边codebook的训练与特征的对齐是同时进行的,应该算一个阶段。

好的,感谢

还有我想请问一下codebook的大小是怎么确定的呢?

haihuangcode commented 1 month ago

还有我想请问一下codebook的大小是怎么确定的呢?

不好意思,今天才看到你的问题。 codebook的大小主要取决于预训练数据量,也一定程度受到模型的影响。