Translate the video from one language to another and add dubbing. 将视频从一种语言翻译为另一种语言,并支持api调用
GNU General Public License v3.0
10.21k
stars
1.13k
forks
source link
自带的 fastwhisper 转写和 FastWhisperGUI差异相当大 还有 请提高AzureTTS质量(仅1行代码搞定) #415
Closed
extremk closed 4 months ago
https://www.youtube.com/watch?v=EvQG3uLq8ys
这个视频使用 自带的 fastwhisper 转写 和 FastWhisperGUI 转写的结果差异相当大,可能是某些重要参数没有设置 转写的内容不能完全对上,模型都是用large-v3,见文本内容,FastWhisperGUI 转写内容是对的,视频语言是马来语
正确的内容是以 Hai semua, Assalamualaikum. 开头
20220816 - EvQG3uLq8ys - Singgang Ikan Kembung-NoSub.srt.txt
20220816 - EvQG3uLq8ys - Singgang Ikan Kembung-NoSub-FastWhisperGUI.srt.txt
===============================================================================
另外建议改一下默认的TTS合成设置,默认设置 Azure TTS合成音质不好,希望提高码率,因为Azure TTS 官方SDK给了高码率的音频设置
python 使用官方SDK,添加这一行代码就可以把默认的 16khz 采样音频提高到 48khz,音质明显好一些
speech_config.set_speech_synthesis_output_format(speechsdk.SpeechSynthesisOutputFormat.Ogg48Khz16BitMonoOpus)
说明 https://learn.microsoft.com/en-us/dotnet/api/microsoft.cognitiveservices.speech.speechsynthesisoutputformat?view=azure-dotnet
根据我实测,这3个是可以用的,推荐使用 Ogg48Khz16BitMonoOpus 码率不大而且音质很好 opus是新的音频压缩格式,YouTube用的就是,但部分软件不兼容
Audio48Khz192KBitRateMonoMp3 高码率MP3 192k,请不要使用低码率的版本 Ogg48Khz16BitMonoOpus 高品质的opus(OGG) 96k码率 Riff48Khz16BitMonoPcm wav格式 768k 码率,无损不压缩,用于后期处理 试听那里,请一起改一下,如果可以,增加一个可选项,选择用 高码率mp3 兼容优先,opus 格式 新格式 高压缩+高品质,还是 wav(PCM)格式,用于后续的后期处理