Open shizhenglg opened 3 months ago
https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_vad_punc_example.wav https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav 这两个音频为什么识别的都是空的内容呢 [{'key': 'asr_vad_punc_example', 'text': '', 'timestamp': []}]
cpu本地跑
代码 modelFile = "paraformer-zh" model = AutoModel(model=modelFile, vad_model="fsmn-vad", punc_model="ct-punc", spk_model="cam++", log_level="debug", hub="ms", ) res = model.generate( input=fileSrc, batch_size_s=300 ) print(f"结果{res}")
如果去掉vad_model="fsmn-vad", punc_model="ct-punc", spk_model="cam++", 识别出来的结果是没法使用的,如asr_example_zh.wav识别的结果[{'key': 'asr_example_zh', 'text': '对 的 对 对 对 对 对 对 对 对 对 对 对 对 对 对 不 不 不 不 的 对 对 对 对 不 不 对 不 对 对 不 不 对 对 不 对 不 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 的 的 的 不 的 一 的', 'timestamp': [[50, 70], [70, 90], [90, 310], [310, 410], [410, 430], [430, 450], [450, 470], [470, 670], [670, 690], [690, 710], [710, 730], [730, 930], [930, 950], [950, 970], [970, 990], [990, 1190], [1190, 1230], [1230, 1250], [1250, 1270], [1270, 1490], [1490, 1510], [1510, 1530], [1530, 1550], [1550, 1710], [1710, 1750], [1750, 1770], [1770, 1790], [1790, 1950], [1950, 2010], [2010, 2030], [2030, 2050], [2050, 2090], [2090, 2310], [2310, 2330], [2330, 2350], [2350, 2370], [2370, 2590], [2590, 2630], [2630, 2650], [2650, 2670], [2670, 2870], [2870, 2890], [2890, 2910], [2910, 2930], [2930, 3110], [3110, 3150], [3150, 3170], [3170, 3190], [3190, 3370], [3370, 3430], [3430, 3450], [3450, 3470], [3470, 3610], [3610, 3690], [3690, 3710], [3710, 3730], [3730, 3750], [3750, 3950], [3950, 3970], [3970, 3990], [3990, 4010], [4010, 4230], [4230, 4250], [4250, 4270], [4270, 4290], [4290, 4530], [4530, 4550], [4550, 4570], [4570, 4590], [4590, 4810], [4810, 4830], [4830, 4850], [4850, 4870], [4870, 5070], [5070, 5090], [5090, 5110], [5110, 5130], [5130, 5290], [5290, 5350], [5350, 5370], [5370, 5390], [5390, 5580]]}]
Please raise issues follow the template. Make sure to clear the envs
envs
同问,我也碰到了类似问题。 https://github.com/modelscope/FunASR/issues/2119
https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_vad_punc_example.wav
https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav
这两个音频为什么识别的都是空的内容呢 [{'key': 'asr_vad_punc_example', 'text': '', 'timestamp': []}]
cpu本地跑
代码 modelFile = "paraformer-zh" model = AutoModel(model=modelFile, vad_model="fsmn-vad", punc_model="ct-punc", spk_model="cam++", log_level="debug", hub="ms", ) res = model.generate( input=fileSrc, batch_size_s=300 ) print(f"结果{res}")
如果去掉vad_model="fsmn-vad", punc_model="ct-punc", spk_model="cam++", 识别出来的结果是没法使用的,如asr_example_zh.wav识别的结果[{'key': 'asr_example_zh', 'text': '对 的 对 对 对 对 对 对 对 对 对 对 对 对 对 对 不 不 不 不 的 对 对 对 对 不 不 对 不 对 对 不 不 对 对 不 对 不 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 对 的 的 的 不 的 一 的', 'timestamp': [[50, 70], [70, 90], [90, 310], [310, 410], [410, 430], [430, 450], [450, 470], [470, 670], [670, 690], [690, 710], [710, 730], [730, 930], [930, 950], [950, 970], [970, 990], [990, 1190], [1190, 1230], [1230, 1250], [1250, 1270], [1270, 1490], [1490, 1510], [1510, 1530], [1530, 1550], [1550, 1710], [1710, 1750], [1750, 1770], [1770, 1790], [1790, 1950], [1950, 2010], [2010, 2030], [2030, 2050], [2050, 2090], [2090, 2310], [2310, 2330], [2330, 2350], [2350, 2370], [2370, 2590], [2590, 2630], [2630, 2650], [2650, 2670], [2670, 2870], [2870, 2890], [2890, 2910], [2910, 2930], [2930, 3110], [3110, 3150], [3150, 3170], [3170, 3190], [3190, 3370], [3370, 3430], [3430, 3450], [3450, 3470], [3470, 3610], [3610, 3690], [3690, 3710], [3710, 3730], [3730, 3750], [3750, 3950], [3950, 3970], [3970, 3990], [3990, 4010], [4010, 4230], [4230, 4250], [4250, 4270], [4270, 4290], [4290, 4530], [4530, 4550], [4550, 4570], [4570, 4590], [4590, 4810], [4810, 4830], [4830, 4850], [4850, 4870], [4870, 5070], [5070, 5090], [5090, 5110], [5110, 5130], [5130, 5290], [5290, 5350], [5350, 5370], [5370, 5390], [5390, 5580]]}]