yeyupiaoling / Whisper-Finetune

Fine-tune the Whisper speech recognition model to support training without timestamp data, training with timestamp data, and training without speech data. Accelerate inference and support Web deployment, Windows desktop deployment, and Android deployment
Apache License 2.0
866 stars 143 forks source link

微调时的奇怪问题,训练集变大之后,准确度反而下降了 #44

Closed ILG2021 closed 10 months ago

ILG2021 commented 10 months ago

我实现现场录音微调whisper,发现一个棘手的问题,我首次采集了30份录音,拿前3个录音作为测试集,后27份作为训练集,训练集大概5小时,训练了一个模型。然后我又增加了30份录音到训练集,测试集没变,结果最终准确率还不如第一个模型。理论上来说训练数据越多,模型准确率是会提升的,不知道哪位高手有遇到过类似问题,请给与指点。另外使用wav格式的数据集跟使用mp3格式的数据集对模型有影响吗?

yeyupiaoling commented 10 months ago

音频格式影响不大,你第一次微调和第二次微调的操作流程一样吗?

ILG2021 commented 10 months ago

音频格式影响不大,你第一次微调和第二次微调的操作流程一样吗?

是的,是一个微调脚本。

ILG2021 commented 10 months ago

增加测试集,然后把mp3的比特率改成192k(之前是16k),wer从20%减少到16%。这个是不是跟测试集太小也有关系?使用lora微调有个比较大的问题就是无法使用准确率作为评估标准,使用loss不是太准。在查binggpt的时候,他说测试集得和训练集是一样的分布,也就是说30份音频的话,得从每个音频中抽取10-20%作为测试集,而不是选取3个音频作为测试集。不知道他说的是否准确。如果从每个音频中抽取的话,准确率应该会高点,因为相关性比较大。但是这对模型有没有帮助呢?

yeyupiaoling commented 10 months ago

看不出是什么问题,你的数据量这么少 不足以说明什么问题

ILG2021 commented 10 months ago

按照规范的,打乱数据,分割为train validation test之后正常了。谢谢。