jianchang512 / pyvideotrans

Translate the video from one language to another and add dubbing. 将视频从一种语言翻译为另一种语言,并支持api调用
https://pyvideotrans.com
GNU General Public License v3.0
10.21k stars 1.13k forks source link

自带的 fastwhisper 转写和 FastWhisperGUI差异相当大 还有 请提高AzureTTS质量(仅1行代码搞定) #415

Closed extremk closed 4 months ago

extremk commented 4 months ago

https://www.youtube.com/watch?v=EvQG3uLq8ys

这个视频使用 自带的 fastwhisper 转写 和 FastWhisperGUI 转写的结果差异相当大,可能是某些重要参数没有设置 转写的内容不能完全对上,模型都是用large-v3,见文本内容,FastWhisperGUI 转写内容是对的,视频语言是马来语

正确的内容是以 Hai semua, Assalamualaikum. 开头

20220816 - EvQG3uLq8ys - Singgang Ikan Kembung-NoSub.srt.txt

20220816 - EvQG3uLq8ys - Singgang Ikan Kembung-NoSub-FastWhisperGUI.srt.txt

===============================================================================

另外建议改一下默认的TTS合成设置,默认设置 Azure TTS合成音质不好,希望提高码率,因为Azure TTS 官方SDK给了高码率的音频设置

python 使用官方SDK,添加这一行代码就可以把默认的 16khz 采样音频提高到 48khz,音质明显好一些

speech_config.set_speech_synthesis_output_format(speechsdk.SpeechSynthesisOutputFormat.Ogg48Khz16BitMonoOpus)

说明 https://learn.microsoft.com/en-us/dotnet/api/microsoft.cognitiveservices.speech.speechsynthesisoutputformat?view=azure-dotnet

根据我实测,这3个是可以用的,推荐使用 Ogg48Khz16BitMonoOpus 码率不大而且音质很好 opus是新的音频压缩格式,YouTube用的就是,但部分软件不兼容

Audio48Khz192KBitRateMonoMp3 高码率MP3 192k,请不要使用低码率的版本 Ogg48Khz16BitMonoOpus 高品质的opus(OGG) 96k码率 Riff48Khz16BitMonoPcm wav格式 768k 码率,无损不压缩,用于后期处理 试听那里,请一起改一下,如果可以,增加一个可选项,选择用 高码率mp3 兼容优先,opus 格式 新格式 高压缩+高品质,还是 wav(PCM)格式,用于后续的后期处理

extremk commented 4 months ago

image 软件设置如下,已经非常确定视频语言代码是 ms,马来语 但是在 pyvideotrans 内,仍然是错的