modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

https://www.funasr.com

Other

7.08k stars 755 forks source link

添加音频码率验证以防止模型异常 #2218

Closed pointerhacker closed 5 days ago

pointerhacker commented 5 days ago

添加音频码率验证以防止模型异常

问题描述

在当前实现中，load_bytes 加载音频文件后没有对音频码率(frame rate)进行验证。这些未经验证的音频数据随后被 load_audio_text_image_video 直接使用，可能导致模型出现意料之外的异常。

解决方案

添加了 validate_frame_rate 方法来确保音频码率的正确性。该方法会在音频数据被模型使用前进行验证，防止异常情况发生。

具体改动

新增 validate_frame_rate 方法
在 load_bytes 中集成码率验证
确保 load_audio_text_image_video 使用经过验证的音频数据

测试

添加了单元测试验证不同码率的音频文件
验证了异常码率情况下的错误处理
确保与现有功能的兼容性

风险评估

影响范围: 仅影响音频处理相关功能
向后兼容: 完全兼容现有接口
性能影响: 验证过程开销较小，对性能影响可忽略