训练效果和公开模型差异问题

Xiaobin-Rong / gtcrn

The official implementation of GTCRN, an ultra-lite speech enhancement model.

MIT License

219 stars 37 forks source link

Open lflyme opened 4 months ago

lflyme commented 4 months ago

你好，非常感谢你开源的模型，模型里面借鉴的东西也很多！在复现你的模型，除了训练数据制作方面有些差异外，其他都一样，但是出来的效果和你公开模型跑出来效果差异还挺大的，请问数据合成这块脚本可否提供借鉴，非常感谢！邮箱：pikaqiu_n95@163.com

Xiaobin-Rong commented 4 months ago

数据合成的脚本没有什么特别的地方，如果想要达到比较好的泛化性的话，需要使用比较大的数据量，这个比较关键。另外 batch size 以及每条样本的长度对训练效果也有一定影响，我一般使用小batch（例如4、8）以及使用较长的音频片段（例如 8 s）来训练。希望对你有借鉴作用。

lflyme commented 4 months ago

非常感谢您的耐心解答，我再摸索摸索！

hulucky1102 commented 3 months ago

作者你好，请问是对所有人声数据添加混响，还是设置了比例，若存在一个比例，是否方便告知

Xiaobin-Rong commented 3 months ago

@hulucky1102 对所有人声数据都添加了混响

lhbing-ai commented 2 months ago

数据合成的脚本没有什么特别的地方，如果想要达到比较好的泛化性的话，需要使用比较大的数据量，这个比较关键。另外 batch size 以及每条样本的长度对训练效果也有一定影响，我一般使用小batch（例如4、8）以及使用较长的音频片段（例如 8 s）来训练。希望对你有借鉴作用。

作者您好，感谢分享数据合成是否所有的语音段都是有人声的，有没有加“静音+噪声”合成的纯噪声音频片段？如果不加，没人说话场景下的纯噪声的过滤问题怎么解决？期待回复！！

Xiaobin-Rong commented 2 months ago

@lhbing-ai 我使用的设置是“语音+噪声”合成，但是一段语音中一般都会含有静默片段，所以你所说的纯噪声片段已经隐含在其中了

lhbing-ai commented 2 months ago

@lhbing-ai 我使用的设置是“语音+噪声”合成，但是一段语音中一般都会含有静默片段，所以你所说的纯噪声片段已经隐含在其中了

我也是这样合成的，语音+噪声，按语音/噪声随机信噪比（-10，20）合成噪声，但训练的模型对于静默片段时的噪声以及部分瞬态噪声总是过滤不干净，尤其“鼓掌”、“敲桌子”、“跺脚”、“订书机”这类瞬态噪声，有什么解决办法吗