TencentGameMate / chinese_speech_pretrain

chinese speech pretrained models
1.02k stars 83 forks source link

最终输出是768维还是1024维呢? #26

Open ZiqiaoPeng opened 1 year ago

ZiqiaoPeng commented 1 year ago

我看模型参数里是'final_dim': 768,但是最终输出的特征维度是1024维

pengchengguo commented 1 year ago

你好,

final_dim 是用于预训练模型训练时,将模型特征从 1024(即Transformer 的输出)映射成 768,然后和 label 计算 loss(比如 hubert 中 kmeans 的结果)。在下游任务中,直接提取预训练模型的特征是 1024(即Transformer 的输出),不用 final layer 的输出。

ZiqiaoPeng commented 1 year ago

好的,谢谢您的耐心解答

Hachiiiiii commented 1 year ago

你好,请问这个768向量是怎么提取的呀,我怎么输出都是1024...

pengchengguo commented 1 year ago

对于 Hubert Large 模型:

image

对于 Hubert Base 模型:

image

抱歉上面介绍解释说反了

Hachiiiiii commented 1 year ago

好滴,谢谢回复!