k2-fsa / icefall

https://k2-fsa.github.io/icefall/
Apache License 2.0
792 stars 267 forks source link

关于wenetspeech的指标是不是有一点问题 #1587

Closed yuyun2000 closed 1 month ago

yuyun2000 commented 1 month ago

同样都是zipformer2模型

在egs/wenetspeech/result.md中,非流式的测试指标是 7.36 & 7.65 & 12.43 (dev net meet)

在multi_zh-hans/result.md中,非流式的指标是 with ctc 9.04 | 7.19 | 8.17 (dev meet net) without ctc 9.32 7.05 8.78 (dev meet net)

我的问题点在这里: 1、为什么前者的meet错误率显著高于net的错误率,而后者的net错误率略微高于meet错误率 2、为什么后者在wenetspeech数据集上又拓展了将近一半的数据,为啥指标还变高了?

我想到的可能的原因是 由于新加的多个数据集的数据分布明显广于原来的单一wenetspeech的分布,导致多数据集训练后模型对大多数情况的音频都更加鲁棒,所以这是后者比前者meet得分更高的原因; 对于后者数据变多但是指标变差,可能是因为原始wenetspeech的测试集还是偏向训练集,所以原来的单一数据集训练下的模型有点”过拟合“?高度适应wenetspeech的数据,忽视了其他情况下的数据?

如果脚本没有出错,那还能有什么原因?

JinZr commented 1 month ago

您好,

我有几个没有验证过的推测:

  1. 根据 @marcoyang1998 的经验,wenetspeech 的 dev set 非常容易过拟合,这可能是 wenetspeech only system 在 dev 上的 CER 的原因
  2. 和 wenetspeech 本身的标注错误有关: https://github.com/wenet-e2e/WenetSpeech/discussions/54 修复由于抄本问题导致的口语数据删除错误过高的问题 · wenet-e2e WenetSpeech · Discussion #54 github.com

供参考

best jin

On Apr 10, 2024, at 17:13, Xuanwu Yun @.***> wrote:

同样都是zipformer2模型

在egs/wenetspeech/result.md中,非流式的测试指标是 7.36 & 7.65 & 12.43 (dev net meet)

在multi_zh-hans/result.md中,非流式的指标是 with ctc 9.04 | 7.19 | 8.17 (dev meet net) without ctc 9.32 7.05 8.78 (dev meet net)

我的问题点在这里: 1、为什么前者的meet错误率显著高于net的错误率,而后者的net错误率略微高于meet错误率 2、为什么后者在wenetspeech数据集上又拓展了将近一半的数据,为啥指标还变高了?

我想到的可能的原因是 由于新加的多个数据集的数据分布明显广于原来的单一wenetspeech的分布,导致多数据集训练后模型对大多数情况的音频都更加鲁棒,所以这是后者比前者meet得分更高的原因; 对于后者数据变多但是指标变差,可能是因为原始wenetspeech的测试集还是偏向训练集,所以原来的单一数据集训练下的模型有点”过拟合“?高度适应wenetspeech的数据,忽视了其他情况下的数据?

如果脚本没有出错,那还能有什么原因?

— Reply to this email directly, view it on GitHub https://github.com/k2-fsa/icefall/issues/1587, or unsubscribe https://github.com/notifications/unsubscribe-auth/AOON42DYKSUJ7H26ZOSX2GLY4T7DNAVCNFSM6AAAAABGABTK4CVHI2DSMVQWIX3LMV43ASLTON2WKOZSGIZTKMJRG4YTMNI. You are receiving this because you are subscribed to this thread.

yuyun2000 commented 1 month ago

所以后者wenetspeech的准确率降低,也许有可能是变高的?总之多数据集下的新模型确实更加鲁棒了是吧,jin佬

JinZr commented 1 month ago

是的,在标签准确的数据集上例如 aishell-1 和 aishell-4 上的性能提升是非常显著的,aishell-4 的 CER 变化这么大我感觉蛮惊讶的。

best jin

On Apr 10, 2024, at 17:40, Xuanwu Yun @.***> wrote:

所以后者wenetspeech的准确率降低,也许有可能是变高的?总之多数据集下的新模型确实更加鲁棒了是吧,jin佬

— Reply to this email directly, view it on GitHub https://github.com/k2-fsa/icefall/issues/1587#issuecomment-2047039741, or unsubscribe https://github.com/notifications/unsubscribe-auth/AOON42BHO7DUI7CMPAJBE6TY4UCH7AVCNFSM6AAAAABGABTK4CVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDANBXGAZTSNZUGE. You are receiving this because you commented.

CSLJingyu commented 2 weeks ago

我想请教一下,aishell-1的测试标签有的句子存在实际标签有问题,这个问题要如何解决?方案一: 不改动aishell-1的测试集标签为正确的标签,将错就错; 方案二: 将aishell-1的错误的标签修改为正确的标签。

JinZr commented 2 weeks ago

两种方法都可以,请自行决定。

best jin

On Apr 28, 2024, at 20:52, JingYu @.***> wrote:

我想请教一下,aishell-1的测试标签有的句子存在实际标签有问题,这个问题要如何解决?方案一: 不改动aishell-1的测试集标签为正确的标签,将错就错; 方案二: 将aishell-1的错误的标签修改为正确的标签。

— Reply to this email directly, view it on GitHub https://github.com/k2-fsa/icefall/issues/1587#issuecomment-2081475574, or unsubscribe https://github.com/notifications/unsubscribe-auth/AOON42ENX7VMEPOBS525TR3Y7TWHRAVCNFSM6AAAAABGABTK4CVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDAOBRGQ3TKNJXGQ. You are receiving this because you commented.