encoder几倍的下采样

lovemefan / SenseVoice.cpp

Port of Funasr's Sense-voice model in C/C++

MIT License

157 stars 10 forks source link

Open liziru opened 2 months ago

liziru commented 2 months ago

感谢工作，想请问一下，encoder是几倍的下采样？

lovemefan commented 2 months ago

感谢对该工作的关注。

举个例子，1秒的音频为16000帧数据，经过特征提取fbank变成了97帧，再进过lfr变成了15帧，然后送入encoder，encoder出来还是15帧，最后ctc输出为对应的15个logit，也就是约为66ms/per，这样算下来是下采样1000多倍了。

相比于whisper，1秒到音频whisper的encoder输出每秒50帧，sense voice比whisper还要进一步压缩3倍多