Open ZiqiaoPeng opened 1 year ago
你好,
final_dim 是用于预训练模型训练时,将模型特征从 1024(即Transformer 的输出)映射成 768,然后和 label 计算 loss(比如 hubert 中 kmeans 的结果)。在下游任务中,直接提取预训练模型的特征是 1024(即Transformer 的输出),不用 final layer 的输出。
好的,谢谢您的耐心解答
你好,请问这个768向量是怎么提取的呀,我怎么输出都是1024...
对于 Hubert Large 模型:
对于 Hubert Base 模型:
抱歉上面介绍解释说反了
好滴,谢谢回复!
我看模型参数里是'final_dim': 768,但是最终输出的特征维度是1024维