参数设置 - Githubissues

yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别，从入门到实战，超简单的入门案例，超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型

Apache License 2.0

807 stars 128 forks source link

Closed Zomun closed 2 years ago

Zomun commented 2 years ago

add_arg('count_threshold', int, 2, '字符计数的截断阈值，0为不做限制')；请问这个参数感官上的理解可以解释下么

yeyupiaoling commented 2 years ago

如果字符在数据集出现的次数小于这个值就忽略掉这个字

Zomun commented 2 years ago

感谢，我的音频里它有的字是说话人结巴、磕巴（一个字发了好几次音），我也标注了很多个字，这样标对么，我发现69mins的音频无论是单独训练还是结合AISHELL训练结果也还是不可用，我现在换了conformer在实验

yeyupiaoling commented 2 years ago

按照标注规范，的确是事实实标。但是在推理的时候，怕会出现重复的字符会删除掉的情况，有可能。

Zomun commented 2 years ago

好的，感谢