lovemefan / SenseVoice.cpp

Port of Funasr's Sense-voice model in C/C++
MIT License
157 stars 10 forks source link

encoder几倍的下采样 #10

Open liziru opened 2 months ago

liziru commented 2 months ago

感谢工作,想请问一下,encoder是几倍的下采样?

lovemefan commented 2 months ago

感谢对该工作的关注。

举个例子,1秒的音频为16000帧数据,经过特征提取fbank变成了97帧,再进过lfr变成了15帧,然后送入encoder,encoder出来还是15帧,最后ctc输出为对应的15个logit,也就是约为66ms/per, 这样算下来是下采样1000多倍了。

相比于whisper,1秒到音频whisper的encoder输出每秒50帧,sense voice比whisper还要进一步压缩3倍多