QwenLM / Qwen2-Audio

The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.
1.11k stars 66 forks source link

关于ASR评估结果请教下 #25

Open fzhml opened 1 month ago

fzhml commented 1 month ago

非常感谢你们的开源工作,给了我很大的帮助。关于新发布的评估部分,我有几个问题请教下,期待你们的回复: 1.为什么复现结果有差距?librispeech test clean这个集合我离线测试wer是1.73左右,官方结果是1.6 2.为什么qwen-audio和qwen2-audio在同样的wer评估准则下效果差不多?我把qwen-audio的tn部分换成qwen2-audio的代码,两者wer数值没有明显的差距(1.78vs1.73)

faychu commented 1 month ago

非常感谢您的关注。我们发现在将Qwen2-audio的权重转为HuggingFace之后,由于框架的变化,导致这个数据集的性能有所下降,请参考第二张表是HF的结果。

fzhml commented 1 month ago

感谢您的回复,关于第2个问题,不同模型的wer是用一套标准(包括正则化)计算出来的吗?

faychu commented 1 month ago

@fzhml Qwen2audio这次更新了TN的方法,而技术报告中的QwenAudio还是沿用的QwenAudio技术报告中的得分,不是一个标准。

fzhml commented 1 month ago

感谢您解答疑惑,另外训练的prompt可以share下不?类似SALMONN 和SpeechVerse都在prompt多样化上做了一些工作,想知道你们会在prompt多样性和质量上做一些消融实验吗?