modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
https://www.funasr.com
Other
6.46k stars 688 forks source link

关于数据集jsonl中的内容 #1891

Closed chenpaopao closed 3 months ago

chenpaopao commented 3 months ago

jsonl文件中对于target_len的计算处理问题

{"key": "asr_example_cn_en", "source": "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_cn_en.wav", "source_len": 91, "target": "所有只要处理 data 不管你是做 machine learning 做 deep learning 做 data analytics 做 data science 也好 scientist 也好通通都要都做的基本功啊那 again 先先对有一些也许对", "target_len": 19}

对于上面中英文混合的数据,为什么target_len:context_len = len(line.split()) if " " in line else len(line) 要这样求解? 这样对于中英混合的数据 求得的数值是否有问题? 是不是应该分别对中英文求长度,在求和

另外:在训练paraformer时候,该值看起来没有用到,是不是该值不影响训练

LauraGPT commented 3 months ago

只是用来组batch,影响计算效率,不影响模型收敛效果,粗略估计,不要去精确。