最终输出是768维还是1024维呢？

TencentGameMate / chinese_speech_pretrain

chinese speech pretrained models

1.02k stars 83 forks source link

最终输出是768维还是1024维呢？ #26

Open ZiqiaoPeng opened 1 year ago

ZiqiaoPeng commented 1 year ago

我看模型参数里是'final_dim': 768，但是最终输出的特征维度是1024维

pengchengguo commented 1 year ago

你好，

final_dim 是用于预训练模型训练时，将模型特征从 1024（即Transformer 的输出）映射成 768，然后和 label 计算 loss（比如 hubert 中 kmeans 的结果）。在下游任务中，直接提取预训练模型的特征是 1024（即Transformer 的输出），不用 final layer 的输出。

ZiqiaoPeng commented 1 year ago

好的，谢谢您的耐心解答

Hachiiiiii commented 1 year ago

你好，请问这个768向量是怎么提取的呀，我怎么输出都是1024...

pengchengguo commented 1 year ago

对于 Hubert Large 模型：

对于 Hubert Base 模型：

抱歉上面介绍解释说反了

Hachiiiiii commented 1 year ago

好滴，谢谢回复！