wenetspeech数据集 - Githubissues

yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别，从入门到实战，超简单的入门案例，超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型

Apache License 2.0

797 stars 131 forks source link

Closed wwfcnu closed 1 month ago

wwfcnu commented 1 month ago

这个数据集中有9000多小时无标签的数据，这部分数据在哪可以获取呢

yeyupiaoling commented 1 month ago

一样是在下载的数据集里面的，按照下面判断划分获取就行

text = segment_file['text']
confidence = segment_file['confidence']