Closed ILG2021 closed 10 months ago
音频格式影响不大,你第一次微调和第二次微调的操作流程一样吗?
音频格式影响不大,你第一次微调和第二次微调的操作流程一样吗?
是的,是一个微调脚本。
增加测试集,然后把mp3的比特率改成192k(之前是16k),wer从20%减少到16%。这个是不是跟测试集太小也有关系?使用lora微调有个比较大的问题就是无法使用准确率作为评估标准,使用loss不是太准。在查binggpt的时候,他说测试集得和训练集是一样的分布,也就是说30份音频的话,得从每个音频中抽取10-20%作为测试集,而不是选取3个音频作为测试集。不知道他说的是否准确。如果从每个音频中抽取的话,准确率应该会高点,因为相关性比较大。但是这对模型有没有帮助呢?
看不出是什么问题,你的数据量这么少 不足以说明什么问题
按照规范的,打乱数据,分割为train validation test之后正常了。谢谢。
我实现现场录音微调whisper,发现一个棘手的问题,我首次采集了30份录音,拿前3个录音作为测试集,后27份作为训练集,训练集大概5小时,训练了一个模型。然后我又增加了30份录音到训练集,测试集没变,结果最终准确率还不如第一个模型。理论上来说训练数据越多,模型准确率是会提升的,不知道哪位高手有遇到过类似问题,请给与指点。另外使用wav格式的数据集跟使用mp3格式的数据集对模型有影响吗?