关于ASR评估结果请教下

QwenLM / Qwen2-Audio

The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.

1.11k stars 66 forks source link

关于ASR评估结果请教下 #25

Open fzhml opened 1 month ago

fzhml commented 1 month ago

非常感谢你们的开源工作，给了我很大的帮助。关于新发布的评估部分，我有几个问题请教下，期待你们的回复： 1.为什么复现结果有差距？librispeech test clean这个集合我离线测试wer是1.73左右，官方结果是1.6 2.为什么qwen-audio和qwen2-audio在同样的wer评估准则下效果差不多？我把qwen-audio的tn部分换成qwen2-audio的代码，两者wer数值没有明显的差距（1.78vs1.73）

faychu commented 1 month ago

非常感谢您的关注。我们发现在将Qwen2-audio的权重转为HuggingFace之后，由于框架的变化，导致这个数据集的性能有所下降，请参考第二张表是HF的结果。

fzhml commented 1 month ago

感谢您的回复，关于第2个问题，不同模型的wer是用一套标准（包括正则化）计算出来的吗？

faychu commented 1 month ago

@fzhml Qwen2audio这次更新了TN的方法，而技术报告中的QwenAudio还是沿用的QwenAudio技术报告中的得分，不是一个标准。

fzhml commented 1 month ago

感谢您解答疑惑，另外训练的prompt可以share下不？类似SALMONN 和SpeechVerse都在prompt多样化上做了一些工作，想知道你们会在prompt多样性和质量上做一些消融实验吗？