MingLunHan / CIF-HieraDist

[INTERSPEECH 2023] Knowledge Transfer from Pre-trained Language Models to Cif-based Recognizers via Hierarchical Distillation
Apache License 2.0
35 stars 5 forks source link

Data Preparation #3

Closed 123go-maker closed 4 months ago

123go-maker commented 5 months ago

作者你好,我在准备数据的时候遇到了问题 image 我下载的sishell_1数据集中并没有该子文件夹,请问是要对原数据集进行某种处理吗? image

MingLunHan commented 4 months ago

@123go-maker 你好,我观察到 dump/raw 是从 SpeedPerturbatedAISHELL1 中所需的字段。我的实验中没使用speed perturbation。

dataset = AISHELL1(input_root.as_posix(), split=split)
# dataset = SpeedPerturbatedAISHELL1(input_root.as_posix(), split=split)

建议使用 Class AISHELL1 进行数据处理,而不是SpeedPerturbatedAISHELL1。

你的报错是因为使用 SpeedPerturbatedAISHELL1 的话需要自己事先将speed pertubated 的数据准备好。

MingLunHan commented 4 months ago

@123go-maker 你好,请问你是否解决该问题,是否还有其他问题。如果没有问题的话,我将关闭该issue。

123go-maker commented 4 months ago

好的谢谢您