Closed yanx57 closed 2 months ago
clip的训练数据量非常大,如果是按类似这个结构用相同级别的训练数据重新预训练可能会比clip的更高,但是直接用clip得到特征对,再输入到这个结构当中,估计不行,这边模型的预训练数据相较于clip太少了。这是我直观的想法,没有进行实验我也不敢打包票。
clip的训练数据量非常大,如果是按类似这个结构用相同级别的训练数据重新预训练可能会比clip的更高,但是直接用clip得到特征对,再输入到这个结构当中,估计不行,这边模型的预训练数据相较于clip太少了。这是我直观的想法,没有进行实验我也不敢打包票。
不是使用预训练好的这个结构,而是使用clip提取特征,再用类似的结构进行训练,相当于是二段式,这样呢?还有就是codebook的训练一般都是二阶段的,请问你们是二阶段的吗?
不是使用预训练好的这个结构,而是使用clip提取特征,再用类似的结构进行训练,相当于是二段式,这样呢?还有就是codebook的训练一般都是二阶段的,请问你们是二阶段的吗?
clip与我们这边最大的区别不是对齐方式的不同,而是这边使用了codebook作为多模态统一表征空间,如果直接将clip的特征输入这边的结构进行训练,可能会有所帮助。但是没有进行实验我无法给出给明确的答复。 然后这边codebook的训练与特征的对齐是同时进行的,应该算一个阶段。
不是使用预训练好的这个结构,而是使用clip提取特征,再用类似的结构进行训练,相当于是二段式,这样呢?还有就是codebook的训练一般都是二阶段的,请问你们是二阶段的吗?
clip与我们这边最大的区别不是对齐方式的不同,而是这边使用了codebook作为多模态统一表征空间,如果直接将clip的特征输入这边的结构进行训练,可能会有所帮助。但是没有进行实验我无法给出给明确的答复。 然后这边codebook的训练与特征的对齐是同时进行的,应该算一个阶段。
好的,感谢
不是使用预训练好的这个结构,而是使用clip提取特征,再用类似的结构进行训练,相当于是二段式,这样呢?还有就是codebook的训练一般都是二阶段的,请问你们是二阶段的吗?
clip与我们这边最大的区别不是对齐方式的不同,而是这边使用了codebook作为多模态统一表征空间,如果直接将clip的特征输入这边的结构进行训练,可能会有所帮助。但是没有进行实验我无法给出给明确的答复。 然后这边codebook的训练与特征的对齐是同时进行的,应该算一个阶段。
好的,感谢
还有我想请问一下codebook的大小是怎么确定的呢?
还有我想请问一下codebook的大小是怎么确定的呢?
不好意思,今天才看到你的问题。 codebook的大小主要取决于预训练数据量,也一定程度受到模型的影响。
您好,我想请问一下,如果我有文本-图像数据对,经过clip得到相应的特征对,再输入到这个结构当中,vqvae输出的向量的对齐程度能比原来的特征对的对齐程度更高吗(就是跨模态的分类准确率能不能更高)?