Closed AshOneN closed 1 month ago
1.从internvit224 到 internvit448 是重新做了对比学习的预训练吗?如果只是微调,是怎么将224的分辨率微调到448的。 2.internvit的输出维度和llm的输出维度不一致,是怎么做对比学习算相似度的。
No response
您好,224升到448我们没有重新做对比学习,是通过MLLM的Pretrain阶段打开ViT训到448分辨率的。 另外在InternVL 1.0的框架里,我们将InternViT-6B和LLaMA-7B通过对比学习对齐。这里两个模型的输出embedding都会通过linear或者attention pooling的方式,降维到768,因此可以算对比学习的相似度。
Motivation
1.从internvit224 到 internvit448 是重新做了对比学习的预训练吗?如果只是微调,是怎么将224的分辨率微调到448的。 2.internvit的输出维度和llm的输出维度不一致,是怎么做对比学习算相似度的。
Related resources
No response
Additional context
No response