关于数据集jsonl中的内容

jsonl文件中对于target_len的计算处理问题

{"key": "asr_example_cn_en", "source": "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_cn_en.wav", "source_len": 91, "target": "所有只要处理 data 不管你是做 machine learning 做 deep learning 做 data analytics 做 data science 也好 scientist 也好通通都要都做的基本功啊那 again 先先对有一些也许对", "target_len": 19}

对于上面中英文混合的数据，为什么target_len：context_len = len(line.split()) if " " in line else len(line) 要这样求解？这样对于中英混合的数据求得的数值是否有问题？是不是应该分别对中英文求长度，在求和

另外：在训练paraformer时候，该值看起来没有用到，是不是该值不影响训练

modelscope / FunASR

关于数据集jsonl中的内容 #1891

jsonl文件中对于target_len的计算处理问题