Closed chenpaopao closed 3 months ago
{"key": "asr_example_cn_en", "source": "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_cn_en.wav", "source_len": 91, "target": "所有只要处理 data 不管你是做 machine learning 做 deep learning 做 data analytics 做 data science 也好 scientist 也好通通都要都做的基本功啊那 again 先先对有一些也许对", "target_len": 19}
对于上面中英文混合的数据,为什么target_len:context_len = len(line.split()) if " " in line else len(line) 要这样求解? 这样对于中英混合的数据 求得的数值是否有问题? 是不是应该分别对中英文求长度,在求和
另外:在训练paraformer时候,该值看起来没有用到,是不是该值不影响训练
只是用来组batch,影响计算效率,不影响模型收敛效果,粗略估计,不要去精确。
jsonl文件中对于target_len的计算处理问题
{"key": "asr_example_cn_en", "source": "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_cn_en.wav", "source_len": 91, "target": "所有只要处理 data 不管你是做 machine learning 做 deep learning 做 data analytics 做 data science 也好 scientist 也好通通都要都做的基本功啊那 again 先先对有一些也许对", "target_len": 19}
对于上面中英文混合的数据,为什么target_len:context_len = len(line.split()) if " " in line else len(line) 要这样求解? 这样对于中英混合的数据 求得的数值是否有问题? 是不是应该分别对中英文求长度,在求和
另外:在训练paraformer时候,该值看起来没有用到,是不是该值不影响训练