关于token数量的问题

DimplesL commented 8 months ago

在ospery中，convnext产生的image feature token应该是1024个（1024 * 768的特征），再结合mask feature （128 + 64 + 32 + 16）和pos的 token，以及text的token 是否会比较容易超出2048比较多？如果以上数值理解有谬误，烦请指正，非常感谢～

CircleRadon commented 8 months ago

你好， @DimplesL image token个数为1024，而每个区域对应的mask token和position token分别都只有1个，详见https://github.com/CircleRadon/Osprey/blob/ca9f26dbd9a0907d8ff686588a394fa897b60828/osprey/model/osprey_arch.py#L184-L187 正常训练和推理一般是不会超过2048的。

DimplesL commented 8 months ago

你好， @DimplesL image token个数为1024，而每个区域对应的mask token和position token分别都只有1个，详见

https://github.com/CircleRadon/Osprey/blob/ca9f26dbd9a0907d8ff686588a394fa897b60828/osprey/model/osprey_arch.py#L184-L187

正常训练和推理一般是不会超过2048的。

感谢指正，看了一下特征的变换，确实如此。关于这部分还有个问题：在mask extractor这个模块，是有线性层等参数的，独立于projector层参数，想确认下这部分的参数在训练过程保存是怎么设置的

CircleRadon / Osprey

关于token数量的问题 #26