关于预先对齐过的特征

haihuangcode / CMG

The official implementation of Achieving Cross Modal Generalization with Multimodal Unified Representation (NeurIPS '23)

167 stars 2 forks source link

关于预先对齐过的特征 #9

Closed yanx57 closed 2 months ago

yanx57 commented 2 months ago

您好，我想请问一下，如果我有文本-图像数据对，经过clip得到相应的特征对，再输入到这个结构当中，vqvae输出的向量的对齐程度能比原来的特征对的对齐程度更高吗（就是跨模态的分类准确率能不能更高）？

haihuangcode commented 2 months ago

clip的训练数据量非常大，如果是按类似这个结构用相同级别的训练数据重新预训练可能会比clip的更高，但是直接用clip得到特征对，再输入到这个结构当中，估计不行，这边模型的预训练数据相较于clip太少了。这是我直观的想法，没有进行实验我也不敢打包票。

yanx57 commented 2 months ago

clip的训练数据量非常大，如果是按类似这个结构用相同级别的训练数据重新预训练可能会比clip的更高，但是直接用clip得到特征对，再输入到这个结构当中，估计不行，这边模型的预训练数据相较于clip太少了。这是我直观的想法，没有进行实验我也不敢打包票。

不是使用预训练好的这个结构，而是使用clip提取特征，再用类似的结构进行训练，相当于是二段式，这样呢？还有就是codebook的训练一般都是二阶段的，请问你们是二阶段的吗？

haihuangcode commented 2 months ago

不是使用预训练好的这个结构，而是使用clip提取特征，再用类似的结构进行训练，相当于是二段式，这样呢？还有就是codebook的训练一般都是二阶段的，请问你们是二阶段的吗？

clip与我们这边最大的区别不是对齐方式的不同，而是这边使用了codebook作为多模态统一表征空间，如果直接将clip的特征输入这边的结构进行训练，可能会有所帮助。但是没有进行实验我无法给出给明确的答复。然后这边codebook的训练与特征的对齐是同时进行的，应该算一个阶段。

yanx57 commented 2 months ago

不是使用预训练好的这个结构，而是使用clip提取特征，再用类似的结构进行训练，相当于是二段式，这样呢？还有就是codebook的训练一般都是二阶段的，请问你们是二阶段的吗？

clip与我们这边最大的区别不是对齐方式的不同，而是这边使用了codebook作为多模态统一表征空间，如果直接将clip的特征输入这边的结构进行训练，可能会有所帮助。但是没有进行实验我无法给出给明确的答复。然后这边codebook的训练与特征的对齐是同时进行的，应该算一个阶段。

好的，感谢

yanx57 commented 2 months ago

不是使用预训练好的这个结构，而是使用clip提取特征，再用类似的结构进行训练，相当于是二段式，这样呢？还有就是codebook的训练一般都是二阶段的，请问你们是二阶段的吗？

clip与我们这边最大的区别不是对齐方式的不同，而是这边使用了codebook作为多模态统一表征空间，如果直接将clip的特征输入这边的结构进行训练，可能会有所帮助。但是没有进行实验我无法给出给明确的答复。然后这边codebook的训练与特征的对齐是同时进行的，应该算一个阶段。

好的，感谢

还有我想请问一下codebook的大小是怎么确定的呢？

haihuangcode commented 1 month ago

还有我想请问一下codebook的大小是怎么确定的呢？

不好意思，今天才看到你的问题。 codebook的大小主要取决于预训练数据量，也一定程度受到模型的影响。