Tele-AI / TeleSpeech-ASR

388 stars 37 forks source link

数据集问题 #22

Open llleohk opened 1 month ago

llleohk commented 1 month ago

请问一下kespeech模型训练结果的训练集和测试集是怎么划分的呢

TTTdas commented 1 month ago

和Kespeech官方是一样的https://openreview.net/pdf?id=b3Zoeq2sCLq

llleohk commented 1 month ago

和Kespeech官方是一样的https://openreview.net/pdf?id=b3Zoeq2sCLq

但是好像没在官方看到训练集和测试集的划分条数和时长,我主要是想对齐一下kespeech模型的效果,看看我们的差距

TTTdas commented 1 month ago

但是好像没在官方看到训练集和测试集的划分条数和时长,我主要是想对齐一下kespeech模型的效果,看看我们的差距

https://github.com/KeSpeech/KeSpeech?tab=readme-ov-file 这个里面的数据,解压后就分了不同的任务和数据集。使用的是ASR任务,将两个训练阶段合并在一起,测试集也是直接用的里面的test目录,没有自己对数据进行划分

llleohk commented 1 month ago

但是好像没在官方看到训练集和测试集的划分条数和时长,我主要是想对齐一下kespeech模型的效果,看看我们的差距

https://github.com/KeSpeech/KeSpeech?tab=readme-ov-file 这个里面的数据,解压后就分了不同的任务和数据集。使用的是ASR任务,将两个训练阶段合并在一起,测试集也是直接用的里面的test目录,没有自己对数据进行划分

明白,非常感谢