yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型
Apache License 2.0
797 stars 131 forks source link

wenetspeech数据集 #178

Closed wwfcnu closed 1 month ago

wwfcnu commented 1 month ago

这个数据集中有9000多小时无标签的数据,这部分数据在哪可以获取呢

yeyupiaoling commented 1 month ago

一样是在下载的数据集里面的,按照下面判断划分获取就行

text = segment_file['text']
confidence = segment_file['confidence']