Can't save quantized models

After digging a little it seems that quantized models have a lot more information than """"normal"""" models, including some meta-data such as the type , and safe-tensors serialization wasn't expecting such meta-data. Seems that the name is also changing from quantized to not quantized

quantized state dict: q_model state dict: <class 'torch.dtype'> 0.auto_model.embeddings.word_embeddings._packed_params.dtype <class 'torch.Tensor'> 0.auto_model.embeddings.word_embeddings._packed_params._packed_weight <class 'torch.dtype'> 0.auto_model.embeddings.position_embeddings._packed_params.dtype <class 'torch.Tensor'> 0.auto_model.embeddings.position_embeddings._packed_params._packed_weight <class 'torch.dtype'> 0.auto_model.embeddings.token_type_embeddings._packed_params.dtype <class 'torch.Tensor'> 0.auto_model.embeddings.token_type_embeddings._packed_params._packed_weight <class 'torch.Tensor'> 0.auto_model.embeddings.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.embeddings.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.query.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.query.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.0.attention.self.query._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.0.attention.self.query._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.key.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.key.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.0.attention.self.key._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.0.attention.self.key._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.value.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.value.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.0.attention.self.value._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.0.attention.self.value._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.0.attention.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.0.attention.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.intermediate.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.intermediate.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.0.intermediate.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.0.intermediate.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.0.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.0.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.query.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.query.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.1.attention.self.query._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.1.attention.self.query._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.key.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.key.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.1.attention.self.key._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.1.attention.self.key._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.value.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.value.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.1.attention.self.value._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.1.attention.self.value._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.1.attention.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.1.attention.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.intermediate.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.intermediate.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.1.intermediate.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.1.intermediate.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.1.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.1.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.query.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.query.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.2.attention.self.query._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.2.attention.self.query._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.key.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.key.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.2.attention.self.key._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.2.attention.self.key._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.value.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.value.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.2.attention.self.value._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.2.attention.self.value._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.2.attention.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.2.attention.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.intermediate.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.intermediate.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.2.intermediate.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.2.intermediate.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.2.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.2.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.query.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.query.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.3.attention.self.query._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.3.attention.self.query._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.key.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.key.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.3.attention.self.key._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.3.attention.self.key._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.value.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.value.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.3.attention.self.value._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.3.attention.self.value._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.3.attention.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.3.attention.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.intermediate.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.intermediate.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.3.intermediate.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.3.intermediate.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.3.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.3.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.query.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.query.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.4.attention.self.query._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.4.attention.self.query._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.key.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.key.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.4.attention.self.key._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.4.attention.self.key._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.value.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.value.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.4.attention.self.value._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.4.attention.self.value._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.4.attention.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.4.attention.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.intermediate.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.intermediate.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.4.intermediate.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.4.intermediate.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.4.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.4.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.query.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.query.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.5.attention.self.query._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.5.attention.self.query._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.key.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.key.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.5.attention.self.key._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.5.attention.self.key._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.value.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.value.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.5.attention.self.value._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.5.attention.self.value._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.5.attention.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.5.attention.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.intermediate.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.intermediate.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.5.intermediate.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.5.intermediate.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.output.dense.scale <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.output.dense.zero_point <class 'torch.dtype'> 0.auto_model.encoder.layer.5.output.dense._packed_params.dtype <class 'tuple'> 0.auto_model.encoder.layer.5.output.dense._packed_params._packed_params <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.pooler.dense.scale <class 'torch.Tensor'> 0.auto_model.pooler.dense.zero_point <class 'torch.dtype'> 0.auto_model.pooler.dense._packed_params.dtype <class 'tuple'> 0.auto_model.pooler.dense._packed_params._packed_params

not quantized state dict:

model state dict: <class 'torch.Tensor'> 0.auto_model.embeddings.word_embeddings.weight <class 'torch.Tensor'> 0.auto_model.embeddings.position_embeddings.weight <class 'torch.Tensor'> 0.auto_model.embeddings.token_type_embeddings.weight <class 'torch.Tensor'> 0.auto_model.embeddings.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.embeddings.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.query.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.query.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.key.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.key.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.value.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.self.value.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.intermediate.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.intermediate.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.0.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.query.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.query.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.key.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.key.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.value.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.self.value.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.intermediate.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.intermediate.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.1.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.query.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.query.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.key.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.key.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.value.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.self.value.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.intermediate.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.intermediate.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.2.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.query.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.query.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.key.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.key.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.value.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.self.value.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.intermediate.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.intermediate.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.3.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.query.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.query.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.key.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.key.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.value.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.self.value.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.intermediate.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.intermediate.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.4.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.query.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.query.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.key.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.key.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.value.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.self.value.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.attention.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.intermediate.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.intermediate.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.output.dense.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.output.dense.bias <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.output.LayerNorm.weight <class 'torch.Tensor'> 0.auto_model.encoder.layer.5.output.LayerNorm.bias <class 'torch.Tensor'> 0.auto_model.pooler.dense.weight <class 'torch.Tensor'> 0.auto_model.pooler.dense.bias

The place where it explode (expecting a tensor, got meta-data), in "transformers/modeling_utils.py", line 650,

    for name in shared:
        tensor = state_dict[name]
        areas.append((tensor.data_ptr(), _end_ptr(tensor), name))
    areas.sort()

Seems that this issue isn't a Sentence-Transformer issue

UKPLab / sentence-transformers

Can't save quantized models #2923