Xiaobin-Rong / gtcrn

The official implementation of GTCRN, an ultra-lite speech enhancement model.
MIT License
219 stars 37 forks source link

对比模型的计算量问题 #13

Open jingxuan9862 opened 6 months ago

jingxuan9862 commented 6 months ago

请问README Tabel1 跟Tabel2 中的RNNoise 的MACs 是怎么统计的呢? 单计算网络部分的话,不会有0.04(G/s) 这么大的, 我按你代码中的统计方式,如果按帧长512,帧移256 计算出来的Macs 为5.53M (约0.0055 G/s), 如果按帧长320, 帧移160计算出来的Macs为8.74M (约0.0087 G/s)

Xiaobin-Rong commented 6 months ago

RNNoise的 MACs,使用的是 DeepFilterNet2 的 Table 1 中提供的数据。

jingxuan9862 commented 6 months ago

https://jmvalin.ca/papers/rnnoise_mmsp2018.pdf 原文中给出的数据,整体的算法复杂度为40Mflops,单网络部分是17.5Mflops , 换成MACs的话是8.75M MACs

Xiaobin-Rong commented 6 months ago

你说得对,RNNoise原文把 FFT 和 IFFT 也算进运算量里了。这样我的对比确实存在不严谨的地方,感谢指出。但 RNNoise 只是 GTCRN 的对比对象之一,GTCRN 在 VCTK-DEMAND 数据集上的 PESQ=2.87 是客观成立的。