Open DimplesL opened 8 months ago
你好, @DimplesL image token个数为1024,而每个区域对应的mask token和position token分别都只有1个,详见https://github.com/CircleRadon/Osprey/blob/ca9f26dbd9a0907d8ff686588a394fa897b60828/osprey/model/osprey_arch.py#L184-L187 正常训练和推理一般是不会超过2048的。
你好, @DimplesL image token个数为1024,而每个区域对应的mask token和position token分别都只有1个,详见
正常训练和推理一般是不会超过2048的。
感谢指正,看了一下特征的变换,确实如此。 关于这部分还有个问题: 在mask extractor这个模块,是有线性层等参数的,独立于projector层参数,想确认下这部分的参数在训练过程保存是怎么设置的
在ospery中,convnext产生的image feature token应该是1024个 (1024 * 768的特征),再结合mask feature (128 + 64 + 32 + 16)和pos的 token,以及text的token 是否会比较容易超出2048比较多? 如果以上数值理解有谬误,烦请指正,非常感谢~