Open lingyu123-su opened 9 months ago
Hello, I encountered the same problem while using the 'OpenAI-compatible-TTS API'. Have you found a solution to this issue?
Hello, I encountered the same problem while using the 'OpenAI-compatible-TTS API'. Have you found a solution to this issue?
你好。我现有的代码也是在此api的基础上实现的。 通过保存数据并播放,我确定这是音频本身的问题而不是硬件问题。 我不确定这是模型本身的问题或者是api代码的问题。 我暂时的解决方法是用静音替代掉爆响声,这需要对音频数据进行后处理,具体流程如下:
# 将字节数据转换为音频段
audio_segment = AudioSegment.from_file(io.BytesIO(audio_data), format="mp3")
# -144 dBFS 是pydub中的静音水平
silent_segment = AudioSegment.silent(duration=100) # 创建一个静音片段
audio_segment = silent_segment + audio_segment[100:] # 替换音频
这里返回的audio_segment就是处理之后的数据。 如果觉得此处过于繁琐,也可以直接删除掉前100ms的数据。取决于你的需要。
Thank you for providing this solution! We have merged a pull request (PR) regarding the 'OpenAI-compatible-TTS API', and it appears that @john9405 has resolved this issue. Can you please update and verify it?
我尝试了他提供的方法,是可行的。
我使用的python版本为3.11,torch为2.1.2,transformers为4.36.2 api设置如下 生成的英文音频在刚开始时会有一声轻微的爆响,类似“噗”的一声。该问题在生成的音频中大概率会出现。 我的解决办法如下:
思路是用空白覆盖掉爆响,在这里我使用的静音音频长度为100ms,当音频长度为40ms时,不起作用 当生成中文时,基本没有遇到这个问题。