Open liziru opened 2 months ago
感谢工作,想请问一下,encoder是几倍的下采样?
感谢对该工作的关注。
举个例子,1秒的音频为16000帧数据,经过特征提取fbank变成了97帧,再进过lfr变成了15帧,然后送入encoder,encoder出来还是15帧,最后ctc输出为对应的15个logit,也就是约为66ms/per, 这样算下来是下采样1000多倍了。
相比于whisper,1秒到音频whisper的encoder输出每秒50帧,sense voice比whisper还要进一步压缩3倍多
感谢工作,想请问一下,encoder是几倍的下采样?